瓦解语言的边界:Meta AI推出开源NLLB-200模型实现200种语言高质量机器翻译

Meta AI最近发布了NLLB-200模型,这是首个能够以高质量翻译200种不同语言的单一AI模型。通过广泛的评估,该模型在各语言上的翻译质量均达到了最先进水平,平均超越现有技术44%。此外,Meta AI还创建了新的评估数据集FLORES-200,并将NLLB-200模型的性能在每种语言上进行了验证。该模型的开源,将有助于其他研究者改进他们的翻译工具,并在此基础上进一步发展。
论文:https://arxiv.org/abs/2207.04672
模型权重:https://github.com/facebookresearch/fairseq/tree/nllb

Demo:https://nllb.metademolab.com/
他们的demo非常有意思,是用了一些罕见的语言下的故事,展示不同语言:

详细介绍
NLLB-200模型的创新:Meta AI开发的NLLB-200模型是一个革命性的成就,它能够处理200种不同语言的翻译任务。这一模型特别关注了以前被忽视的低资源语言,如非洲和亚洲的某些语言。模型结构上,使用了MoE版本的Transformer。改动其实不大,我猜测这主要是为了适应不同的语言,这样处理会让模型的训练更容易。

FLORES-200数据集的重要性:为了评估NLLB-200模型的性能,Meta AI创建了FLORES-200数据集(下图是创建该数据集的流程图)。这个数据集包含了多种语言对的翻译样本,用于测试和验证NLLB-200模型的翻译质量。这是一个重要的工具,因为它提供了一个标准化的方式来衡量不同语言翻译的效果。

性能提升的显著性:在FLORES-101基准测试中,NLLB-200模型的表现超越了现有的最佳模型,平均提升了44%。对于某些非洲和印度语言,这一提升甚至超过了70%。这表明Meta AI的模型在处理多种语言对,尤其是低资源语言方面取得了显著进步。

模型的开源和应用:Meta AI不仅开发了这一突破性的模型,还决定开源NLLB-200模型及其训练代码,使全球的研究者和开发者都能够访问和利用这些资源。这一举措有望促进全球范围内的合作和进一步的技术发展。此外,NLLB-200模型的技术也被应用于改进Facebook、Instagram和Wikipedia上的翻译服务。

观点
这里说一点感性的吧。很久以前,我看过一部电影《社交网络》被扎克伯格的理念深深吸引了。没想到的是,时至今日,Facebook依然记得自己的使命:connect every person in the world。

学术上,它为自然语言处理和机器学习领域提供了新的研究方向,尤其是在多语言处理和低资源语言翻译方面。
商业上,这一技术的进步将极大地促进全球化交流,为企业提供进入新市场的机会,同时也促进了这个世界不同语言的使用者的交流。
特邀作者:日本早稻田大学计算机系博士生 王军杰