我用 20 行代码告诉你，文科生也该学点编程

2019-06-21 20:20 作者:清谈老湿 0人读过 | 我要投稿

最近在学 Python 编程的过程中，发现一个有意思的第三方模块 jieba，用它可以自动给文章中的汉字进行分词，并统计出它们出现的次数。于是，按照教程输入相关代码，然后让程序运行起来，对指定的文本进行词频统计，从而发现了一些以前不曾知道的秘密。

下图是对从网上下载的《二十五史》（下图①处）统计前 200 个高频词（下图②处）的运行结果：

由于该文本有 3000 多万字，因而在 Jupyter Notebook 中运行上面只有 20 行的代码，也用了 3 分多钟（上图红框内）。对运行结果再进行人工筛选，去掉一些没有意义的词语，最后总结并绘出《二十五史》（点击文末”阅读原文“了解详情）中的 30 个高频词如下：

从中不难看出，中国人自己写的历史，就是一部帝王将相”抢椅子“的权力游戏，几千年来从未改变。

用同样的代码和方法再统计《全唐诗》和《全宋词》合并后的文本，前30 个高频词如下：

”何处“竟然遥遥领先，成为唐诗、宋词中使用最多的词语，难道这就是中国古人心中最大的问题吗？

从整体上看，诗书和史书中的高频词几乎没有交集。可见，这是两个完全不同的世界：一个是残酷的现实，一个是惆怅的想像。看到此处的朋友，不知你作何感想？如果你也是个文科生，那像我一样，赶紧学点编程技能吧，它对你的学习和工作都大有裨益！

用程序统计词频不光能发现别人文章背后的秘密，也能了解自己的兴趣爱好。比如，我硬盘里收藏了数千本电子书，它们有什么特点呢？

将所有书名保存到一个文本文件（与上面的文本一样，都要使用 UTF-8 编码，如下图箭头所示）：

然后再用前面的程序代码进行词频统计，结果前 9 个高频词如下：

虽然书不一定都读了，但这些高频词起码反映了自己的读书方向。

最后，再分享一下《四书五经》中的12个高频名词：

在这个大数据时代，不会处理大数据，谈何竞争力？

我用 20 行代码告诉你，文科生也该学点编程的评论 (共条)