我用 20 行代码告诉你,文科生也该学点编程
最近在学 Python 编程的过程中,发现一个有意思的第三方模块 jieba,用它可以自动给文章中的汉字进行分词,并统计出它们出现的次数。于是,按照教程输入相关代码,然后让程序运行起来,对指定的文本进行词频统计,从而发现了一些以前不曾知道的秘密。
下图是对从网上下载的《二十五史》(下图①处)统计前 200 个高频词(下图②处)的运行结果:

由于该文本有 3000 多万字,因而在 Jupyter Notebook 中运行上面只有 20 行的代码,也用了 3 分多钟(上图红框内)。对运行结果再进行人工筛选,去掉一些没有意义的词语,最后总结并绘出《二十五史》(点击文末”阅读原文“了解详情)中的 30 个高频词如下:

从中不难看出,中国人自己写的历史,就是一部帝王将相”抢椅子“的权力游戏,几千年来从未改变。
用同样的代码和方法再统计《全唐诗》和《全宋词》合并后的文本,前30 个高频词如下:

”何处“竟然遥遥领先,成为唐诗、宋词中使用最多的词语,难道这就是中国古人心中最大的问题吗?
从整体上看,诗书和史书中的高频词几乎没有交集。可见,这是两个完全不同的世界:一个是残酷的现实,一个是惆怅的想像。看到此处的朋友,不知你作何感想?如果你也是个文科生,那像我一样,赶紧学点编程技能吧,它对你的学习和工作都大有裨益!
用程序统计词频不光能发现别人文章背后的秘密,也能了解自己的兴趣爱好。比如,我硬盘里收藏了数千本电子书,它们有什么特点呢?
将所有书名保存到一个文本文件(与上面的文本一样,都要使用 UTF-8 编码,如下图箭头所示):

然后再用前面的程序代码进行词频统计,结果前 9 个高频词如下:

虽然书不一定都读了,但这些高频词起码反映了自己的读书方向。
最后,再分享一下《四书五经》中的12个高频名词:

在这个大数据时代,不会处理大数据,谈何竞争力?

