2008年11月15日星期六

与研究有关的自然语言的四条性质

1,语义鸿沟
语言都有其所指,这是我们做研究的时候,很容易到的地方。语言可以帮助我们理解现实世界,同时对现实世界的理解有助于理解语言。然而这就是所谓的ai-complete。千万不要在羽翼未丰的时候动了妄念,不要过多徘徊于此,当心失足。

2,结构性
我们读律诗会发现,首联用字与尾联用字分布一样吗?每句第一个位置与第二个位置用字分布一样吗?
由于其著名性,人们已经习惯了不假思索的使用向量模型对文档建模,习惯了未加省视地使用序列模型对语言建模。然而文章不是词袋,而语言也不是K线图。篇章、语法解构左右着词语的分布。

3,歧义性
它让文学家不至于失业,也让律师不至于失业,当然现在还包括我们。一筹莫展。

4,复杂性
4.1,规模大。如果说分析一个词如同分析一个分子的运动,那么分析整个语言,就如同分析一杯水中所有水分子的运动。量变会引起研究方法的改变。
4.2,规则多。每个词一条规则都不够,两个词语在一起出现时也会有特殊的用法。
4.3,例外多。如果想追求美感让自己的规则中“除了、而且、或者”之类的词语少,那么做好准备面对语料库中的例外吧。
4.4,复合体。语言中的一部分可以很好的转换成数理逻辑,而每种语言数字的表示方法也独立于其它语法,关于时空的描述似乎在语言中也自成一体,需不需要对视觉听觉心理什么的词单独处理呢。
4.5,非离散。对于一个有限符号系统,现在居然是统计的方法在大行其道。

没有评论: