不务正业:论如何从文字识别语言
本文一般适用于比较大的语言,一些小语言或许也有涉及。欢迎指正。文中语误,一字不易。

第一步是看字符
形如abcdefghijklmnopqrstuvwxyz等的字母,我在此将其统称为拉丁字母,它常见于日耳曼诸语(如英语,德语)和罗曼诸语(如拉丁语,意大利语,西班牙语,法语)。
现今语言活力第二大的字母体系是西里尔字母,即абвгдеёжзийклмнопрстуфхцчшщъыьэюя,常见于斯拉夫诸语(如教会斯拉夫语,俄语,白俄语,乌克兰语)。
既然说到这里就不得不说说它们两兄弟的的共同源头——希腊文。希腊语也常见在数理化等领域。希腊文的字母是这样的:αβγδεζηθικλμνξοπρστυφχψω。据我所知,只有希腊语还在全部使用希腊文字母。
而后就不得不提阿拉伯文。呃,阿拉伯文长得是在太鬼畜了。

这种字母常用于伊斯兰教地区(如阿拉伯地区)。
此后大一些的语言中只有希伯来文可以说一说了:

相比大家最熟悉的是第一个字母Alef,被用作数学上与无限有关的东西(比如说Alef0,1,2,...)。使用希伯来文字母的极大概率都是以色列的希伯来文。
然后是亚洲的表音文字。
首先来说印度阿三的语言印地文:

就没什么好说的了,我相信韩文和日文咱谁都分得出来,蒙古文改用了西里尔文(外蒙古),内蒙古的咱也分得出来,维吾尔文那一群基本上是和阿拉伯文长得差不多的。
然后具体点说。
首先说最有影响力的——英语拉丁语!拉丁文是十分好分的,毕竟也没什么人用,你一看,本来该是元音的地方出了个Vv,基本上是拉丁文没跑。拉丁文还有更便捷的分辨方式:元音上有长元音的附标 ̅。但是有的文献上是不会有的。还有比如说像有tion,tio,um,ium这种前缀后缀的要么是拉丁文,要么是从拉丁文借来的。
然后是英语。你就那么定睛一瞧,有qu没有kv,有tion没um,有元音没附标,准是英语。
还有意大利语,要是看见基本上是一个辅音带一个元音的语言,例如farfala之类,就该是意大利文了。
德文就更好分了,看见什么äöü之类并且一个句子里有好几个单词首字母大写那就该是德文。
然后是法文,要看是不是法文,得找找像les,la这样的词。如果通篇只有la那就得注意是不是Esperanto了。这时候就要看元音附标,法文的元音附标一般是像什么áàéè之类,如果还有çê之类那就是法文了。
提到这就不得不说土耳其文。我曾经天真地以为只有法文才有字母ç呢,但我后来发现土耳其文也有。土耳其文是很简单的,看一眼有没有上面带点的大写字母I(İ)和不带点的小写字母i(ı)就行了。
然后是西班牙文。西班牙文最好分辨了,看看有没有Ññ¿¡就行。
现在来说西里尔文的这几个难兄难弟。
俄语就不说了,看到标准字母表就是俄语。如果查差了ё,就说明文章是懒人写的,文章比较短,或者这是教会斯拉夫语。
乌克兰语呢,比较突出的几点是有i没и,有є没э,有ї没ы,有ґ,没ё,有'没ъ。
白俄罗斯文呢,有i没и,没щ没ъ,有ў。
保加利亚妖王文呢,没什么差别,最显著的只有没э。
剩下的就不占用过多篇幅了,自己上百科查一查:https://baike.baidu.com/item/%E8%A5%BF%E9%87%8C%E5%B0%94%E5%AD%97%E6%AF%8D?bk_fr=chain_bottom×tamp=1618842100422
成了,那今天就先到这里吧。