2008年11月15日星期六

与研究有关的自然语言的四条性质

1,语义鸿沟
语言都有其所指,这是我们做研究的时候,很容易到的地方。语言可以帮助我们理解现实世界,同时对现实世界的理解有助于理解语言。然而这就是所谓的ai-complete。千万不要在羽翼未丰的时候动了妄念,不要过多徘徊于此,当心失足。

2,结构性
我们读律诗会发现,首联用字与尾联用字分布一样吗?每句第一个位置与第二个位置用字分布一样吗?
由于其著名性,人们已经习惯了不假思索的使用向量模型对文档建模,习惯了未加省视地使用序列模型对语言建模。然而文章不是词袋,而语言也不是K线图。篇章、语法解构左右着词语的分布。

3,歧义性
它让文学家不至于失业,也让律师不至于失业,当然现在还包括我们。一筹莫展。

4,复杂性
4.1,规模大。如果说分析一个词如同分析一个分子的运动,那么分析整个语言,就如同分析一杯水中所有水分子的运动。量变会引起研究方法的改变。
4.2,规则多。每个词一条规则都不够,两个词语在一起出现时也会有特殊的用法。
4.3,例外多。如果想追求美感让自己的规则中“除了、而且、或者”之类的词语少,那么做好准备面对语料库中的例外吧。
4.4,复合体。语言中的一部分可以很好的转换成数理逻辑,而每种语言数字的表示方法也独立于其它语法,关于时空的描述似乎在语言中也自成一体,需不需要对视觉听觉心理什么的词单独处理呢。
4.5,非离散。对于一个有限符号系统,现在居然是统计的方法在大行其道。

2008年11月9日星期日

综合优秀三等奖学金感谢信

尊敬的学校领导、各位老师:

  虽然自知获得这样一个奖项并不是因着任何可以夸耀的成绩,但仍请允许我在此向你们表示感谢。

  这一年是被评为综合优秀当中第三等的一年,是直博阶段的第一年,也是来清华后的第五年。似乎早已等闲了这些数字,不过也正好可借着这个机会稍稍回顾思索一番。学而优则奖,其本意是一种肯定与鼓励,然而其取向又在何处呢。

  青年人,都觉得理想主义是个褒义词,我也不例外。身为80后的一代,虽未经历过伤痕文学的时代,但小时候,就有人说他老了,无所谓了,我们还年轻。小时候,街头放的流行歌曲就是崔健的“一无所有”。我们就是这样带着理想主义的乡愁,踏入清华园的。

  曾经是一个看《十万个为什么》而接受启蒙的人,但后来才发现,这套书还远远不能称作百科全书。在校园里,让我有很好的机会接触那百科全书中的其它章节,然而后来又发现,也没有任何一页,回答了关于理想的问题。

  似乎又回到了原点,我唯一能够确定的就只是我在思考,我唯一能够付诸信仰的就只是理性本身。但我却无法停止下来了。也许漂泊就是归宿,而寻找才是答案。所以可能正因如此我才决定继续读的Ph.D.,让自己如同踏软索者一样,站在通向理性、通向超越的绳索上。

  志既矢,当一以贯之。最后以据称是在希尔伯特的博士宣誓仪式上,校长所说的一段话作为结束:“我庄严的要你回答,宣誓是否能使你用真诚的良心承担如下的许诺和保证:你将勇敢的去捍卫真正的科学,将其开拓,为之添彩;既不为厚禄所驱,也不为虚名所赶,只求上帝真理的神辉普照大地,发扬光大。”

  此致
敬礼!

计算机系
张开旭
2008年11月9日

2008年9月27日星期六

发几个图

全唐诗对仗图(这张图点进去放大看比较爽)

不考虑平仄后的对仗星云

中国文化局部的贝叶斯网络

2008年9月22日星期一

小议《吕氏春秋》前三卷

======
引子
======
比庄子什么的好懂多了,没看注释跟翻译基本上也没问题。顺便把吕不韦的传奇生平又回味了一下。

据说吕氏春秋前面依次按十二个月份写的十二卷是核心,也像是书名来历,所以读了这十二卷。读过之后,不论从语言还是思想,觉得最精彩的还是春天三卷,其它三季应该就不是一个人写的了。

或曰吕氏春秋属于杂家,不同意,它是杂而不成一体。春天主要以道家思想为主,兼有儒墨各家;夏天写尊师重道,谈君臣父子,很儒家,后面又写些音乐相关的;夏天写军事;冬天写国是,还发表了一同对丧葬的态度。

书里面除了各家思想,还有民风民俗,故事寓言,也值得把玩。今就前三卷春天写一些体会。

======
齐物主义
======
书中有【天生阴阳、寒暑、燥湿、四时之化、万物之变,莫不为利,莫不为害。】,此思想属于道德经里面的“天地不仁,以万物为刍狗”。言所有事物都是中性的。

书中有个很有意思的故事:【荆人有遗弓者,而不肯索,曰:“荆人遗之,荆人得之,又何索焉?”孔子闻之曰:“去其‘荆’而可矣。”老聃闻之曰:“去其‘人’而可矣。”】。阐明了儒道在这个问题上的不同关注点,可见道家是把这个思想发挥到了极致的。在儒家的语言中每个人都一样没有区别,有教无类,天下大同。在道家的语言中只剩下谓词了,任何主语任何宾语在任何情况下都是平齐的。

插一句他们对死亡的态度与之后的中国两千年相比也是如此的唯物【所谓死者,无有所以知,复其未生也】,也没有鼓盆而歌那么极端。

======
法自然
======
“天无二日,地无二主”。某还懂希腊文的历史老师一谈到中国古代的这些话就痛心疾首,说这就是之所以中国直到近代之前都一无思辨二无民主的原因,他把这种话的出现归因于中国人没有逻辑。

而实际上读了包括吕氏春秋等典籍再来看这个问题,我们发现这个其实是中国人有一种亚逻辑替代了严谨的逻辑。科学思维有很多种的,归纳、演绎、类比。所谓归纳是从经验总结抽象规律,所谓演绎是利用抽象规律得出现实结论。而中国人也许是自古没有多少抽象思维,所以这两种都不在行,用得最多的是类比,直接从具象到具象,不经过抽象环节。

比如上面的“天无二日,地无二主”,跟对对联似的(古人的确喜欢用对仗用排比,可以避免误识句读,看来类比还可以归咎于古汉语没有标点),直接可以从一个具体现象推出另一个具体结论。而上联中国人用得最多的就是自然,所以中国人强调法自然,强调天人合一。从星空类比皇权,从天地类比阴阳乾坤,从五行类比五色五声五味五脏……无一不是类比推理的杰作。

======
适度的态度
======
接着上面“天地不仁,以万物为刍狗”,老子的类比就是“圣人不仁, 以百姓为刍狗”。吕氏春秋也有【故圣人之制万物也,以全其天也】。按着事务的本性对待它就可以了。

对待万物如此,对待能够满足自己欲望的事物、对待自己的欲望也该如此。故有【欲有情,情有节。圣人修节以止欲,故不过行其情也】,【是故圣人之於声色滋味也,利於性则取之,害於性则舍之,此全性之道也】,【非好俭而恶费也,节乎性也】。被他们反对的有【其於物也,不可得之为欲,不可足之为求,大失生本】,【夫水之性清,土者抇之,故不得清。人之性寿,物者抇之,故不得寿】,【物也者,所以养性也,非所以性养也】。

他们不是禁欲主义,也不是纵欲主义,强调适度,这个与中庸呀,中观呀,中道呀什么的是不是都是一个思维模式。甚至再联系到大家微积分里面学过的中值定理都不为过,即过与不及之间的某个位置才是最好的,虽然不能定量分析,但各个学说都知道最好的地方在中间某个位置。具体在哪里,就自己把握吧。

======
好恶
======
既然上面定了对物对我的标准,那么就有了好恶。全其身就成了能想到的最浪漫的事。【嗜肉者,非腐鼠之谓也;嗜酒者,非败酒之谓也;尊生者,非迫生之谓也】,不以物伤其身,白话就是凡事不要太勉强,对自己好点。

人都怕死,孟子却说“鱼,我所欲也,熊掌,亦我所欲也;二者不可得兼,舍鱼而取熊掌者也。(再次说明类比是古人主要思维逻辑)生,亦我所欲也,义,亦我所欲也;二者不可得兼,舍生而取义者也。”,而吕氏春秋说【子华子曰:“全生为上,亏生次之,死次之,迫生为下。”】。虽然都说死不是最可怕的,不过目的大相径庭。

无独有偶,大学章句中说“古之欲明明德于天下者,先治其国。欲治其国者,先齐其家,欲齐其家者,先修其身。”,此为儒家奉行的做人做事的次第,吕氏春秋有相同的次第【道之真,以持身;其绪馀,以为国家;其土苴,以治天下】,不过他们所看重的又恰恰截然相反。

======
主动被动
======
文章也强调了主体作用,应该是吸取的儒家反求诸己的思想,曰【射而不中,反修于招,何益於中?】,孟子也说“仁者如射,射者正己而后发;发而不中,不怨胜己者,反求诸己而已矣”。还有【欲胜人者,必先自胜】,【故有道者不察所召,而察其召之者】。

也引用了墨子的故事,说明外物对主体的影响【墨子见染素丝者而叹曰:“染於苍则苍,染於黄则黄,所以入者变,其色亦变,五入而以为五色矣。”故染不可不慎也。】

======
关乎政治
======
语出据说是战国成书的《六韬》,【天下非一人之天下也,天下之天下也。】,现在听起来也是掷地有声。还有一句【诛暴而不私,以封天下之贤者,故可以为王伯。若使王伯之君诛暴而私之,则亦不可以为王伯矣】。

这一点体现了中国古代的政治合法性的判断法则,所有人都赞美三皇五帝(有一个人例外,而且说自己死了要随葬一把斧子,好到阴间去砍了他们的头,这个故事也被当作反面在吕氏春秋中出现),他们好是因为他们的道德好。甚至成汤、周武此类想弑君篡位之徒,也被认为是道德高尚的人,而夏桀、殷纣这样的失位的正统,就都成了道德败坏之辈。政治道德化也是中国的传统,所以人们都觉得君君臣臣,国家就好了。这一思想也影响了中国数千年了。

不过最后其实仿佛依稀看到一点分权的朴素思想【先王之立高官也,必使之方,方则分定,分定则下不相隐】。比较囧的是这个也是从天圆地方的思想类比过来的。

2008年9月15日星期一

平遥见闻之:民歌“泪圪蛋蛋抛在沙蒿蒿林”

歌词大意:
羊了肚子儿手了巾儿哟三道道蓝,咱们见个面面容易,哎呀这拉话话个难,一个在那山上哟 一个在那沟,咱们拉不上那话话,哎哟招一招哟手。瞭得见那村村哟瞭不见个人,我泪圪蛋 蛋抛在,哎呀沙蒿蒿个林。



这里还有录音棚版下载,可对比一下哪个更有folk的感觉:http://www.snwh.gov.cn/ypfiles/%C0%E1%B5%B0%B5%B0%C5%D7%D4%DA%C9%B3%DD%EF%DD%EF%C1%D6.mp3

2008年9月14日星期日

北戴河毕业旅行系列:)

先发youtube~
我跟军头滑沙:

同学们在去的路上唱歌~好怀念,王二小:

然后是国际歌:

然后是一些照片吧:
这是学校东门地砖。毕业,毕业旅行,踩着脚下,踏出校园。
北戴河的拔河比赛:

最后一张不需要处理,原来的色彩已经最美了

今年春节的礼花

试试可以发youtube视频不。

2008年9月12日星期五

中秋打油乐府诗一首

月儿今昔作婵娟,几家愁苦几家甜。
月饼盒盒都可口,奈何囊中无多钱。
孩子刚巧上小学,妻子下岗正赋闲。
妻小等候在家中,空手徘徊家门前。
只道日间公事忙,便把月饼忘车间。
孩子顿足长哭闹,妻子敛眉谓我言:
知君今日买月饼,无钱明日买油盐。
佳节已过饼难销,前日昂贵隔日廉。
两折竟买一小盒,满心欢喜步颠颠。
孩子拍掌笑相迎,妻子展眉乐开颜。
全家围坐小窗下,赏月品饼话神仙。
神仙感此款款意,遂照朗月到窗边。
穷人中秋在十六,十五月亮十六圆。

2008年9月11日星期四

Something about the ancient Chinese language

Whether there're spaces between words is a feature of languages. There're spaces between English words while there are not any spaces between Chinese. This difference is well knowed and often be considered when somebody wanna describe the defference between English and Chinese, or the variety of languages.

But what is more I notice today, is whether puncturate or not is also an option for natural languages. Nearly all the modern languages are punctuated. But some ancient languages do not have any punctuations. Specially the ancient Chinese has neither word separators nor punctuations.

The extraordinary phenomenon of ancient Chinese to deal with the ambiguities due to the lack of words separators and punctuations, is that this language is very neat and rhythmic. What interests me is that is this the result of the adaption or the reason of the ignorance of break symbol of words and sentences in the last thousands years.

2008年9月9日星期二

论什锦八宝饭

人民网上线了这么一个东西:

p1.png

首先声明,这不是谁在恶搞,的确是人民网做的(http://politics.people.com.cn/GB/8198/132796/index.html)。这个网站还有一些什么内容呢。先看左边:
p2.png
再看右边:
p3.png
下边还有:
p4.png
左看右看上看下看,想起了以前看的一组搞笑图片,以古代历史事件为背景的杂志封面。再次强调这次我们看到的,的确是我天朝官方媒体上的,不是恶搞亦非黑客所为。

让我们重点品一下最上面一幅截图。
左 下角的logo,是毛体的"人民网",人民二字根本就是copy的他老人家"人民日报"题词的前两个字,象征这喉舌何所来何所往。后面跟一个 "people",象征它为了与国际接轨做过一次修改。下面有它的网址,象征它又在向新的阵地迈进。而那个大大的非严肃型字体的"FANS",象征其又在 改变自己去迎合着一种新的思潮。

其实这样的现象绝非一次孤立或偶然的尝试。比如近的就看我们的邻居,今天KMT主页上截图:
p5.png
另一在野党主页截图:
p6.png
随着GCD这一阵营进军娱乐圈,红绿蓝,闹得欢,这下就齐活了。

中学课本里说封建统治者用一些封建思想封建道德桎梏百姓,看来这话是说错了。存在的就是合乎道理的,历史自有其趋势与必然。

古代人类落后、蒙昧,其主导情感是敬畏,因此巫术、宗教可以大行其道。社会进步,人们需要秩序,需要稳定,所以法律、道德、等级社会应运而生,主导情感是服从。因此在漫长的中国古代,那种天子式的皇帝才可以坐得稳,统治者需要把握住这种敬畏,这种服从。

到了中国近代,中华民族的思想经历了一次洗礼,一个拖着沉重腐朽文化的老迈的民族,突然变成了理想主义的青年,而那毛主席共产党就是他心中不落的红太阳。其实是先有了冲动的潜质,才会催生崇拜的对象。

而 当代呢,主导情感从崇拜变成疯狂,从疯狂变成迷茫,人们企图在拜金的热潮中忘记失落寻找慰籍麻痹自己,进入新世纪,十年浩劫的后坐力、创伤的疼痛感渐渐远 去,然而精神却依然空虚,加上现代传媒对社会的重构,从这次事件更能看得出来,大众主导情感的趋势显然是正在向娱乐方向发展。

人们不缺吃 不缺穿,不怕天不怕地,不但不再信鬼信神,也不再对权威感冒,不再对理想冲动,人们所如饥似渴的是娱乐,是娱乐。看看90后的这一代吧。那些过时的曾经的 作为所谓统治工具的思想还有用吗?党国最近的举动无非是在努力地顺应时代的潮流,跟他们的前辈独尊儒术,宣扬理学,传播马列主义是一个道理。对着一批脑残 的火星人,御用文人是不如御用娱乐人管用的。

什锦八宝粥,呵呵,民以食为天,我中华饮食文化博大精深,加上凉粉呀,玉米呀,仿佛中国人的 心理上更容易把味觉掺入其他情感中。而拥有强权的统治者不在扮演神扮演天子甚至也不再扮演导师、领袖、统帅、舵手,而是把自己打扮成一种明星的形象,不知 道算不算是一种黑色幽默。那大家有没有像投票选超女那样投票选一下下一任我们心目中的偶像的冲动呢。

非主流不可能永远非主流,脑残的人不 可能永远不长大。中国人需要有地震,好去让以后的自己意识到原来我们也可以这样强大而团结;中国人需要有奥运,去让以后的自己意识到原来金牌的意义其实不 过如此。让我们忘掉曾经的自大狂妄,忘掉曾经的自卑怯懦,也忘掉曾经的狂躁不安,那是一个新的时代,新的一批人,新的民族需要的主导情感是成熟与自信。


2008年9月4日星期四

渐进论

我是理论计算机盲,在这里瞎说一些痴语~

可接受解的集合在解空间里。

任意迭代算法是根据一个解空间里的点得到另一个点,也可以看成移动了一个给定的解空间里的点的位置。

迭代算法通常对初值敏感。

迭代算法有时候不收敛,或收敛到非最优解。

迭代算法如同一个漏斗,入口有口径,出口也有个口径。

为什么不把若干不完美的迭代算法串联起来,保证空间里的一个初始点能经过若干漏斗之后可以漏到更可以接受的地方去。

具体到语言建模上。先用简单的模型去迭代出一个解――一个语言模型,可能它还很不完美,然后用这个解放入更复杂的解空间的子空间里进行迭代,得出一个更复杂更优的解。如此下去。

所以,也许可以不必期望一步到位地得到一个完美语言模型。只要我们的某个中间模型满足:1,其迭代的初始值能够或者可能由其它模型得到,或者允许任意;2,其不破坏迭代结果被其它模型迭代而最终接近理想目标的可能性。那么这样的模型的意义就不只是一次独立的尝试。