欢迎光临散文网 会员登陆 & 注册

后续:有关中文是最有效率的语言吗?

2019-12-31 02:33 作者:大老李聊数学  | 我要投稿

不久前,我发布了一期名为“中文是最有效率的语言吗--信息熵浅谈”的文章,引起了热烈反响。这篇文章在知乎上目前得到了3千多个赞,200多条评论,我很开心。也看到一些评论中提到了一些质疑和疑问,我觉得有必要做一期后续。

第一条,我要澄清,我发那篇文章的目的不在于比较各种语言的优劣,其实我也没说中文比其他语言优越或者更差。每种语言都有其优点和缺点,就我看来,汉字在书写上很优美又有效率。但是中文在发音上有劣势,没法讲的快,这一点后面还有佐证。

第二,汉字目前作为仅有的表意文字,当然有其意义,我是绝对反对把汉字拉丁字母化的。但是,表音表意文字这个概念也是相对的。一篇古文,你也许可以完全念出来,但你可能完全不知道这文章是啥意思。

而英语就更有意思了,大老李发现很多英文单词,我是知道意思的,但是我是不知道正确发音。直到我第一次听别人说,我才知道:啊,原来这个词是这样读的。比如拿铁咖啡这个词:latte,我曾经一直以为读[leit],直到听别人说了,我才知道原来读[ˈlɑːteɪ]',它是意大利语里“牛奶”的意思。那你说'latte'对我是表意还是表音?

(拿铁咖啡的英语:“Latte”的正确发音,你知道吗?其实它源自意大利中的“牛奶”一词)

其实很多古老的字母构成的文字我们都只知道意思,而不知道确切发音了。所以,“表音表意”文字,只是个相对程度的概念,而不是绝对互斥的。执意追究表音表意文字孰优孰劣不是很有意义的问题,两者没有明确界限。

(古埃及的象形文字,虽然我们已经破解其意思,但是有谁敢说知道它们的正确发音呢?)

第三,我在喜马拉雅收到这样一条留言:

讲得非常好! 我作为一个学过中文又从事计算机工作的美国老外来想这个问题实在觉得太有意思。我有几个想法。 第一汉字的复杂程度以及每一个字的笔画和空间分布包含的信息肯定远远超过一般的英文单词。如果我们分析一下两种文字中的每一个词或字的复杂程度,譬如说用笔画的数量来做比较,不知道会得到什么结论? 第二,就文字编码的问题,我认为我们人类和科技领域的工作者没有必要把编码的问题和压缩的问题混在一起。这根本是两个问题。我们如果用某一种文字的频率来达到文档压缩的目的,然后再把这个设计近文字符号的编码中,这种眼光显然太短。谁能保障之前做的压缩方法或依靠的频率数据永远最正确?把压缩问题和编码问题分开来对待的好处很多!

首先,感谢这位老外朋友对我的文章的赞同,说明大老李对不同语言的思考不是胡来。关于第二个问题,我完全赞同。在一般文字编码时,没必要以最短编码为目标,因为词频在不同类型的文章里就很不一样,而不等长编码又会使解码处理十分复杂,所以平时这样用是得不偿失的。

对第一个问题,其实很多人也问了,就是能否用笔画来比较?

这里我要说“可比性”很重要。两个东西要比较。比如把汉字简单拆成笔画进行不同笔画的频率分析是不可取的。因为把汉字拆成笔画序列后,你无法还原出原来汉字。比如“土地”的“土”和“士兵”的“士”。这两个字笔画都一样,但却是不一样的字。

你把它们都拆成“横竖横”,就丢失信息了。所以,进行笔划比较是不可取的。除非我们能对不同笔划在不同位置的情况一一分析,保证不丢失信息,那么才有可比性。但这样看上去非常困难。

第四,有人说我有关中文在语音上会丢失信息量的说法,是主观臆断,牵强附会。其实我自己发现我还有些事实论据。大老李已在国外生活了一段时间,刚来时,发现这里的电视机有个让我略感惊奇的功能,就是“自动字幕”。打开这个功能后,不管你原来的电视节目是否有字幕,电视机都能根据音频信号,自动加入字幕,而且效果出奇的好,我感觉这电视机的英语听力比我好多了。当然,电视机其实并不是根据声音信号转文字的,而是根据数字信号转文字的。

(老外的电视机有个功能叫“自动字幕”,打开后,屏幕上自动出字幕。当然,不管什么语言,它都会按“英语”去“理解”)

而能上youtube的听众也发现,youtube上的英语视频有个功能就是“自动字幕”,而这个功能对中文视频至今没有开通。大老李也试过一些将中文语音转文字的软件,但不管是谷歌的,还是科大讯飞的,效果都很不理想。其实想想就知道这很难。比如“我是大老李”,这句语音,所有识别软件都会识别成“我是大脑里”,因为对软件来说,“大老李”三个字不是一个词,它只能去找发音最接近的三个字去匹配。

之前大老李用科大讯飞的“听见”服务,对“寻找数字中的宝石-梅森素数”音频的文字转写部分结果,其实结果应该说已经很不错了,但还不到实用的程度:

大家好,这里是大脑里聊数学。 今天跟准备跟大家聊一个有关素数的话题。 我知道素素是一个非常吸引人,但又是非常大的一个话题。 我看这个话题等于是给自己挖了个坑, 但是我自己又非常想讲这个话题, 因为在我看来数是数学当中 最基本的一个东西,也是 全宇宙当中可能是最基础的一个存在。我曾经设想,如果有一天有外星人到地球来与地球人对话的话, 怎么跟外星人对话?如果是我的话,我就会拿一堆石子, 然后摆成两个一堆三个一堆, 然后是五个一堆七个亿吨,11个亿吨...

以上这种情况就是中文在语音上丢失信息量的极好佐证。我也很希望将来能发展出非常实用的中文语音转文字的软件,我就方便多了。

第五,文中我提到了有人猜想,不同语言在输出效率上是接近的,也就是单位时间内,你能说出的信息量是接近的。关于这一点我后来查了些资料,还真有人验证的这一点。就在2019年10月,有几位研究者发布了一篇论文,标题是:不同的语言,相近的编码效率:比较人类交流中的信息率(Different languages, similar encoding efficiency: Comparable information rates across the human communicative niche)。

https://advances.sciencemag.org/content/5/9/eaaw2594


( 不同语言信息密度和音节速率的关系,横轴是信息密度,纵轴是音节速率。可以看到,信息密度大的语言,迎接速率就低)

其基本内容是比较许多种语言中有关信息密度,音节速率和信息率之间的关系。“信息密度”类似我说的信息熵,单位是单个音节中的信息量。因为一个汉字基本是一个音节,所以,用汉字拆成音节来分析还是合理的。而英语拆成字母就不太合理,而应该拆成单词,然后再在总的信息熵里除以英语平均每个单词的音节数,就能得到这里所说的信息密度。

音节速率就是语速,单位是每秒你能说出的音节数。信息率就是单位时间里你能说出的信息量,等于信息密度乘以音节速率。

而研究结果表明,信息密度高的语言,音节速率就低。比如说日语,日语我们感觉比较啰嗦,音节很多,但是日语语速很快,单位时间内你可以说很多音节,接近每秒8个音节。中文信息密度大,但是语速不能快,平均每秒6个音节左右。其实中文的音调是十分限制语速的一个东西。所以最终,各种语言的综合信息率是相近的。有兴趣的听众可以自己查阅那篇文章。

最后,我看到有人说:信息熵是外国人发明的东西,怎么可以用来研究中文?我想说,这种态度很不可取,我也很遗憾为什么都是外国人来研究中文的?你觉得信息熵对中文不适用,那请你找出对中文适用的衡量标准?总之,吐糟成本很低,但是没有任何意义,不如做一点有意义的研究。

好了,下期再见!

后续:有关中文是最有效率的语言吗?的评论 (共 条)

分享到微博请遵守国家法律