2009年12月31日星期四

新年

似乎越来越难以来到这里呼吸呼吸新鲜空气了。
安安心心,踏踏实实,做自己的事情。
新的一年,能否第一次出国呢。

张开旭 (Kaixu Zhang)
Ph.D. Candidate, Tsinghua University
http://nlp.csai.tsinghua.edu.cn/~zkx/
中文分词文献列表: http://nlp.csai.tsinghua.edu.cn/~zkx/cws/bib.html

2009年9月4日星期五

巴别一瞥

汉语,英语,古希腊语,维吾尔语

【语系】
》汉语是汉藏语系;维吾尔语是阿尔泰语系突厥语族;古希腊语是典型的印欧语系;英语是印欧语系日耳曼语族,但作为印欧语系成员,已经非典化了。

》汉语属于孤立语,单词没有形态变化。维吾尔语是黏着语,一个词后面可以粘上很多后缀。而古希腊语是屈折语,整个单词,特别是名词和动词,变化及其多样而丰富,各种词缀,甚至会改变词根。英语保留了一些这样的特征。

【语音】
》像现代汉语中的jqx,zcs,在维吾尔语中也是基本的辅音。而维吾尔语也有如德语中Latex(拉泰赫)的x的音。

》汉语有声调,很多东南亚语言也有,但古代汉语有没有声调,有争论。古希腊语是有声调的,但现在的印欧语包括现代希腊语都只有重音没有声调。维吾尔语的重音都在单词的最后一个音节。所以他们说汉语也让汉人很不习惯,觉得他们说话都凶巴巴的。

【文字】
》拉丁字母打小学拼音的时候就熟悉了。希腊字母,因为跟英文有些类似,读音会有些混淆,反而用了一点时间适应。维吾尔语的阿拉伯字母,而且读音相似的音写法也类似,所以很好记。特色是同一个字母的写法是上下文相关的。汉字肯定是最难的。

》维吾尔语跟古希腊语(如果不考虑它的音调)是看着文本就能念的语言,英语已经不行了,而汉语从来没想过要这样。

【词汇】
》印欧语诸语言都有很多共同的词汇。根据词汇可以推测他们的祖先生活在北方远离大海的寒冷大地。现代汉语很多词汇来自日语。

》 维吾尔语来自波斯语(比如我们熟知的馕――当然汉语本身的馕这个词汇,又是来自维吾尔语――其实是来自波斯语)、阿拉伯语("古尔邦")、英语(单位同事 叫人接电话都是喊的"xxx,telefon!",中国共产党叫做Zunggo Kommunisting Partiyisi)的词汇都不少。现在受汉语的影响又很大,有次听几个年轻人说话,听到几个"初恋"、"勾引"之类的词,如同我们说汉语带几个英文单 词。

》印欧语系有很多词缀,比如'-er', '-tion', '-ly', '-lize', 'para-', 'anti-'之类的。而这种情况在维吾尔语中异常多,几乎都是以后缀的形式。而汉语就难说了,宽泛的讲更多,不过就与合成词没法区分了。

》相比而言英语中合成词仿佛并不多,他们倾向于另用一个读音表示。而古希腊语合成词就很多。至于词语合成的丰富性与灵活性,可能汉语跟维吾尔语是比较突出的。

【语法】
》英语是典型的SVO,主谓宾形式。汉语也算,不过还有话题优先的特征,比如"车票买了",而不是"买了车票"。维吾尔语是SOV型。而古希腊语就无所谓了。由于丰富的格变化,很多情况下随便什么语序都不会有歧义。

》 名词的格(case)上,古希腊语有四五种格的变化,比原始印欧语可能少了一些。而维吾尔语中有大概十多种格,而且主要的格都可以跟印欧语系语法中的格意 义一一对应。英语已经变得几乎就没有格变化了,除了如第一人称代词有"I me my"主格宾属格的变化,还算保留了一些。其它情况下跟典型孤立语汉语一样,靠语序与介词来区分格。

》名词的数(number)、性(gender)上,两门印欧语必须带数,亚洲语不必。只有古希腊语有阴阳中三性。英语中也残留了一些性的遗恨,如god/goddess。

》最复杂的都是动词,古希腊语用屈折变化表示各种时态(tence),表示语态(voice),语气(mood)等,及其复杂。维吾尔语在动词后面依次加入词缀来表示。汉语就加状语来表示,其表现力应该是最灵活的吧。

》介词,欧洲语言常用的某些介宾短语,"on the table",两个亚洲语会用"桌上"来表示。

【复杂性】
》 汉语声调是上下文相关的,母语使用者可能都注意不到,不过还好,一共也就这几种变化。其它每个字怎么念就固定了。维吾尔语有元音辅音的和谐,词缀根据词干 的不同按和谐规则有一定的变化。古希腊语就更复杂一些,时常两个元音结合会收缩(contraction)成另一个,如果说维吾尔语的和谐规则可以看成一 元映射,那这个就是二元的。此外名词还分作不同的变格(declension),不同的declension变化规则还不一样。如果把这些动词名词变化规 则的表格写下来,有几十页。

月亮|the moon


月亮|the moon
Originally uploaded by Kaixu

重来没有拍到过这么清楚的月亮,能看见阴影。
用卡片机
方法:先对着屋里的等半按快门,然后对着月亮~不然用卡片机直接照就是一团白。

2009年1月18日星期日

鄙视网易,强奸民意

======事情经过是这样的,相关页面大家可以用搜索引擎搜到======

时间是09年1月18日下午,听说网上有一则题为《贾庆林撰文要求筑牢抵御西方多党制的防线》的新闻。于是找到网易的转载。内容本身并无多大新意,我本想看看网友对此的评论,发现几十条评论一致是“支持共产党”之类的口号,怀疑是被动了手脚。一看有一行字“评论共2736条 显示69条”,顿觉安慰,想也就是一般的和谐吧,所谓选择性遗忘。

再细看,对于网易的每一条网友评论,用户还可以投票“支持”与“反对”,这就有意思了,看到那些每一条高呼万岁的评论中,只有几百个支持的投票,而有几千个反对的投票,显然这个至少是没有被网易自己的人做手脚的。以为整个事情就是这样了,一则新闻,两千多评论只有69条被选出来登载,而这些观点全部遭受点击投票的极强烈反对。

想不到到吃晚饭前,再去看投票情况的时候,发现支持的略有上升,还是几百,而反对的票数大约都减少到了原来的1/10。吃饭回来,发现支持的票数十倍于之前,而反对的是在慢慢增加。然后晚间又再一次压低了反对的票数。

在看看同为媒体,同为可以给评论投票的凤凰网,同一条新闻。登出来的评论的水平高得多,支持反对的意见也更符合常理。虽然很多人还是反对原文的意见,但类似于“无论怎样,要坚持科学发展观”这样的评论也得到了大多数人的支持。比较而言,我更相信这是真实的民意。

======于是我不能忍了======

网易的这些评论,这是谁和谁在这些小的数目字上折腾?是有一小撮别有用心的人在制造“反对”的点击率,还是今天上网的网友恰好都是不明真相的群众。可以肯定的是作为媒体的网易在这上面肯定也是做了手脚的。我不反对你只登评论中的歌功颂德的那一部分,然后公布评论了多少,你登了多少,也不反对你见反对的投票多,把投票功能关了,把结果不显示,但你自己捏造投票数字,强奸民意的做法,就实在太过分了。

虽然是一则关于意识形态的新闻,但我不是想谈意识形态,不是想论辩自由民主。问题已经比这个还严重了。

古人说“富贵不能淫,贫贱不能移,威武不能屈“,按时兴的话来说,就是做人要有底线,这个底线就是道德的底线。

有人说媒体是无冕之王,在某种意义上这是对的,因为理想的媒体是用来揭发,用来将事实将真相公之于众的,所以当权者也会让它三分。一个媒体,只有做到了这个基本的要求,只有保持住了自己的诚信,保持住了自己的公信力,才能叫保住了自己的底线。在中国,做到没有跨越底线的媒体是鲜有的。

======但这并不是问题的根源======

一方面,这是这片土地上的统治者几千年来的习惯;一方面,中国人历史上也少有为争一口气,为做一次人而抗争的,他们要么坐稳了奴隶,要么……因此就造成了这样的现象的蔓延。事实上这两个原因也是统一的,就是中国传统文化造成的。

如果症结是文化基因所致,那么就应该有其它的佐证。的确,如果我们假设中国人不以保持真相为道德底线:就不难理解为什么中国的抄袭剽窃、学术腐败这么严重;就不难理解为什么所谓的专家为了迎合当政者的意图,可以随意编造数据,得出他们想要的结论,使得专家教授在公众中成为贬义词。所以甚至都不能责怪是当政者逼良为娼,简直就是你情我愿的狼狈为奸。下位的人知道上面喜欢这样的奴才,上位的人知道自己这么乱来也不会招致反对。

======因此根本可能还是要改变这种文化传统======

一个人没有骨气,没有诚信,再强壮,再富有,也没有人瞧得起他。一个民族,缺乏是非的基本操守,再强大,也无法得到其他民族的尊重。而且在一个充满谎言的社会中,在一个世人不以欺骗为耻的社会中,能够持久进步也是值得怀疑的。

如果可能,我们自己可不可以忍住利益的驱使,少编造一些谎言;可不可以在认为自己不得不这样做了之后,给自己一点耻辱的感觉;可不可以在发现别人将要这样做的时候,站出来发表一下反对的意见,哪怕只是“也许我不是想完全阻止你这样做,但只想告诉你实际上这是不对的”;可不可以在一个网络最有影响力的媒体犯错误的时候,坚决的反对它;可不可以在越来越“适应”社会的同时,不要忘了保留一颗赤子之心。

也许读到这篇文章的人中,会有漠不关心政治的,会有愤青,会有党员,甚至会有所谓“五毛”。会有支持民主的会有反对民主的,支持渐进改革的也甚至会有支持暴力革命的。但本文目的不是支持或者批驳以上任何一种人,任何一种观点。想谈的只是我认为的人的基本伦理底线,只是我认为的媒体的基本职业道德,有道是“做人不能太CNN”。不论在哪个意识形态下,一个媒体,不能做有违真相的宣传,不能为了自己的利益篡改事实,甚至捏造民意,所以我今天要对网易表示自己的强烈鄙视,持以上各种不同意见的朋友,是否也支持这一点呢?

最后对那些憧憬更好体制的朋友们说,不要空谈主义空谈淋巴县长(谐音)。如果我们现在不能对自己的虚假行为说不,不能对别人的虚假行为说不,不能对网易这样的社会舆论声音的虚假行为说不,那么我们未来如何对善用蒙骗手段的专制体制说不。

======相关截图======
第一次网易评论页,反对票很多:
下午时候,反对的多
第一次网易评论页,相当,反对票数竟然减少:
晚饭前,反对票数被改小
第一次网易评论页,支持票数猛增:
晚饭后,支持票数被改大
凤凰网的评论页1:
凤凰网比较靠谱
凤凰网的评论页2:
凤凰网比较靠谱

2009年1月5日星期一

相声小段子一则

第一次写,呵呵。

A:您近来可好?
B:好。您最近在忙什么呢?
A:我最近在研究汉字。
B:您学问大。
A:不敢不敢,这个汉字啊,有几千年的历史,老祖宗的遗产,我中华的国粹呀。
B:是是是,那您具体在研究汉字的哪一方面呢?
A:以意借音。
B:这是个什么东东呢?
A:就是说一个汉字,借用意思相关的另一个汉字的音,或者再改一改,来当作自己的读音。您好比说,“城阙辅三秦,烽烟望五津”的“阙”字儿。
B:“不知天上宫阙,今昔是何年”的阙。
A:对咯,这个字的读音就是借来的。
B:这怎么说呢?
A:您知道,城门,就是两边有墙或者有楼,上边儿把两边连起来,就下面有个口,可以进出人。
B:是咯。
A:阙呢,就是两边有楼,而上边没有连起来的城门。
B:这样呀。
A:跟一般的城门比,不就“缺”了一块吗,所以就读作“阙”了。
B:哦,这样的呀,还挺有意思的。
A:有意思吧。
B:有意思,有意思。
A:像这样的情况呀,在汉字中那是所在多有啊。
B:是吗?
A:您再比如“将进酒,杯莫停”的“停”字。
B:“停车坐爱枫林晚”的停。
A:这个字的读音也是借来的。
B:借的哪个字呢?
A:亭子的亭,您看人走啊走啊他走累了,找个地方停一下 ,停下来在亭子下面休息休息,一个人字一个亭子的亭,不就是停下来的停了吗。
B:哦,就这个呀。呵呵,您这不怎么样您这个。这我也会。
A:您也会?
B:要不您考考我?
A:考考你?
B:考考我。
A:好。
B:试试。
A:椅,桌椅的椅字,读音怎么来的。
B:这还不简单,人站啊站啊他累了,找个东西倚一下,不就是椅了吗。
A:哟,不错嘛。
B:您这不怎么样,容易,谁都会。
A:容易?
B:简单,您再考我。
A:好,那炮,大炮的炮,读音怎么来的。
B:炮嘛,是要把炮弹投出去。
A:投出去。
B:投出去,仍出去,抛出去,抛,对,就这么来的,把炮弹抛出去,所以读炮。
A:哈,看不出来嘛,可以呀。
B:小case,peaces of cakes,我是谁呀,您考我个难的。
A:难的?
B:最难的。
A:好,现而今人们时常说的一个,“当下的中国”,“当下的社会”,这个当字,读音这么来的。
B:“当”?当……这是个虚词呀,借的谁的音呢……
A:不知道了吧。
B:嘿嘿。
A:说我这容易,谁都会,小case,peaces of cakes。
B:还请您指点指点。
A:我告诉您听好了哈,“当下的中国”,“当下的社会”,又脏又臭,很黄很暴力,这是什么地方?
B:什么地方?
A:裆呀,裤裆的裆呀。
B:啊。
A:裆下的中国嘛。
B:嗨,您别挨骂了。