2008年11月15日星期六

与研究有关的自然语言的四条性质

1,语义鸿沟
语言都有其所指,这是我们做研究的时候,很容易到的地方。语言可以帮助我们理解现实世界,同时对现实世界的理解有助于理解语言。然而这就是所谓的ai-complete。千万不要在羽翼未丰的时候动了妄念,不要过多徘徊于此,当心失足。

2,结构性
我们读律诗会发现,首联用字与尾联用字分布一样吗?每句第一个位置与第二个位置用字分布一样吗?
由于其著名性,人们已经习惯了不假思索的使用向量模型对文档建模,习惯了未加省视地使用序列模型对语言建模。然而文章不是词袋,而语言也不是K线图。篇章、语法解构左右着词语的分布。

3,歧义性
它让文学家不至于失业,也让律师不至于失业,当然现在还包括我们。一筹莫展。

4,复杂性
4.1,规模大。如果说分析一个词如同分析一个分子的运动,那么分析整个语言,就如同分析一杯水中所有水分子的运动。量变会引起研究方法的改变。
4.2,规则多。每个词一条规则都不够,两个词语在一起出现时也会有特殊的用法。
4.3,例外多。如果想追求美感让自己的规则中“除了、而且、或者”之类的词语少,那么做好准备面对语料库中的例外吧。
4.4,复合体。语言中的一部分可以很好的转换成数理逻辑,而每种语言数字的表示方法也独立于其它语法,关于时空的描述似乎在语言中也自成一体,需不需要对视觉听觉心理什么的词单独处理呢。
4.5,非离散。对于一个有限符号系统,现在居然是统计的方法在大行其道。

2008年11月9日星期日

综合优秀三等奖学金感谢信

尊敬的学校领导、各位老师:

  虽然自知获得这样一个奖项并不是因着任何可以夸耀的成绩,但仍请允许我在此向你们表示感谢。

  这一年是被评为综合优秀当中第三等的一年,是直博阶段的第一年,也是来清华后的第五年。似乎早已等闲了这些数字,不过也正好可借着这个机会稍稍回顾思索一番。学而优则奖,其本意是一种肯定与鼓励,然而其取向又在何处呢。

  青年人,都觉得理想主义是个褒义词,我也不例外。身为80后的一代,虽未经历过伤痕文学的时代,但小时候,就有人说他老了,无所谓了,我们还年轻。小时候,街头放的流行歌曲就是崔健的“一无所有”。我们就是这样带着理想主义的乡愁,踏入清华园的。

  曾经是一个看《十万个为什么》而接受启蒙的人,但后来才发现,这套书还远远不能称作百科全书。在校园里,让我有很好的机会接触那百科全书中的其它章节,然而后来又发现,也没有任何一页,回答了关于理想的问题。

  似乎又回到了原点,我唯一能够确定的就只是我在思考,我唯一能够付诸信仰的就只是理性本身。但我却无法停止下来了。也许漂泊就是归宿,而寻找才是答案。所以可能正因如此我才决定继续读的Ph.D.,让自己如同踏软索者一样,站在通向理性、通向超越的绳索上。

  志既矢,当一以贯之。最后以据称是在希尔伯特的博士宣誓仪式上,校长所说的一段话作为结束:“我庄严的要你回答,宣誓是否能使你用真诚的良心承担如下的许诺和保证:你将勇敢的去捍卫真正的科学,将其开拓,为之添彩;既不为厚禄所驱,也不为虚名所赶,只求上帝真理的神辉普照大地,发扬光大。”

  此致
敬礼!

计算机系
张开旭
2008年11月9日