为研究语言多样性和进化而创建的2000多种语言的大规模公共数据库
我是斜杠青年,一个热爱自然科学的“杂食性”学者!
语言学家、计算科学家和心理学家合作出版了存储库。

除了汇编已成为西方文化支柱的故事外,格林兄弟(威廉和雅各布)还对语言学非常感兴趣。特别是雅各布在1819年出版的《Deutsche Grammatik》一书中做出了重大贡献,他在书中记录了印欧语言之间的关系。
语言之间的相似性增加了我们沿着语言树一直关注语言家族之间的联系到某种根语言的可能性(进一步讨论见Stephen Jay Gould的1989年论文《格林最伟大的故事》)。其他问题围绕着语言及其多样性的可能平行演变。
现在,德国马克斯·普朗克进化人类学研究所的一个语言学家、计算科学家和心理学家团队创建了一个庞大的公共数据库,以研究这些和其他关于语言进化和多样性的问题。
他们在科学数据期刊上发表的一篇论文中介绍了他们的研究成果。
该公共数据库语言和文化进化系于2014年成立时,团队提出了一个雄心勃勃的目标。“世界上有7000多种语言:创建尽可能广泛地记录语言多样性的数据库”。
“他们的灵感来自Genbank——一个大型遗传数据库,来自世界各地的生物学家在这里存放了基因组数据”。“Genbank是一个游戏规则的改变者。大量免费提供的序列数据彻底改变了我们分析生物多样性的方式。他们希望他们的第一个全球语言数据库Lexibank将开始以类似的方式彻底改变人类对语言多样性的知识”。
Lexibank以标准化单词列表的形式存储2000多种语言的数据。
“Lexibank的工作恰逢在语言数据库中推动更一致的数据格式。因此,Lexibank既可以作为标准化好处的大规模例子,也可以作为进一步标准化的催化剂”,论文的共同作者Robert Forkel领导了数据收集的计算部分。该团队决定创建自己的标准,称为跨语言数据格式,这些标准现已成功用于该部门参与的众多项目。
领导实用数据管理的合著者Johann-Mattis List表示:“他们设计了新的计算机辅助工作流程,使现有语言数据集具有可比性”。“通过这些工作流程,他们大大提高了数据标准化和数据管理的效率”。
使用新的计算技术,该团队根据60种不同的标准展示了语言的相似之处或差异。
“由于我们对语言数据的标准化表示,现在可以轻松检查有多少语言使用‘妈妈’和‘爸爸’等单词来表示‘母亲’和‘父亲’。”
“事实证明,这种模式确实可以在世界上许多语言和不同的地区找到”。Greenhill,Lexibank是项目的创始人之一。“由于所有具有这种模式的语言彼此没有密切联系,它反映了独立的平行进化,正如伟大的语言学家罗曼·雅各布森在1968年建议的那样”。
该数据集和计算工具发现的其他模式值得进一步探索。
在调查哪些语言对’手臂’和‘手’使用相同的单词时,团队发现这些语言通常也对‘腿’和‘脚’使用相同的单词。“虽然这似乎是一个愚蠢的巧合,但它表明,人类语言的词汇通常比孤立地研究一种语言时想象的要结构要强得多”。
研究人员表示,该项目的下一阶段将是扩展他们的数据集,并探索有关语言多样性和语言进化的进一步问题。
了解最新前沿科学,关注我就是你最好的选择!