标点符号的作用是什么?
汉语的标点符号,一般由句号、逗号、顿号、分号、冒号以及引号组成。这些标记实际上是对语言中停顿和连接现象的符号化。 汉语的句间停顿比英语等更为灵活,没有固定格式的标志。为了便于计算机处理,制定了一个以“全角空格”作为主标志的汉字标点和英文标注方案。使用这一方案的系统能够自动识别文字中自然出现的无意义的空格,并转化为适当的标点符号。当遇到连续两个或两个以上的空格时,系统则需要人工介入做进一步的处理。目前,大多数中文输入法都支持此功能。
不过,虽然使用了现代技术进行加工,这种解决方案还是基于“字面表达式”的理论基础之上——它认为句子是由一个个词语(包括词组)通过停顿、连接而构成的。这样的处理方式,其实是很不自然的。在自然语境中,一个句子往往是由语流中的词汇依次排列而成的。这样,一个句子内部往往会出现连续的多重停顿;而不同句子之间,也会因不同的语境而存在各种各样的连接方式。
这种方法无法彻底解决文本分析的难题。尤其是机器翻译领域,由于对上下文依赖性的处理困难,现有的方法几乎全都依赖于人为的干预。