欢迎光临散文网 会员登陆 & 注册

BLEURT更鲁棒的NLG评价指标

2023-03-01 09:29 作者:小牛翻译NiuTrans  | 我要投稿

本文首发于网站 机器翻译学堂

转载事宜请后台询问哦

译者|丁妍

单位|东北大学自然语言处理实验室

引言

在过去几年中,关于自然语言生成(NLG)的研究已经取得了巨大的进步。在机器翻译、文本摘要、对话生成等生成类任务上,模型的正确率也取得了前所未有的成功。与此同时,模型所使用的结构和方法也越来越复杂。目前,一共有两种方法可以评估这些NLG系统:人工评估和自动指标。通过人类的标注,对模型的结果进行大规模的评估和打分,这种评估结果具有较高的质量,但是需要大量的劳动力,十分不方便。而使用自动指标(比如BLEU)进行打分虽然更加快捷,却无法具有与人工评价同等的质量。因此,我们需要开发更高效,更准确的自动评估方法来对NLG系统的质量进行评估。

BLEURT

在“Evaluating Natural Language Generation with BLEURT”(ACL 2020)中,该文章介绍了一种新颖的自动评估指标——BLEURT(使用Transformers表征的双语评估研究),它在迁移学习的基础上,捕获广泛的语言现象,比如释义。该指标具有前所未有的质量水平并且具有鲁棒性,更加接近人工注释。

1.NLG系统的评估

在人工评估方法中,人工注释者的任务是评估一段文本的流畅性和质量。该文本通常与参考文本并排显示,参考文本可以是人类创作的,也可以是从web中挖掘的。如下图就是一个机器翻译中的人工评估示例。

机器翻译中的人工评估示例

使用人工评估的好处就是具有非常高的准确率,但是这种评估方法动辄就要消耗几天甚至几个星期,非常影响模型开发的时间。

相比之下,自动指标背后的想法是为人类质量的测量提供廉价,高速的参考结果。自动指标通常将两个句子(候选句子和参考句子)作为输入,它们返回一个分数,指示前者在多大程度上与后者相似,通常使用词法重叠的方法。一个流行的指标是BLEU,它计算候选句子与参考句子的相似度。

自动指标的优缺点与人工评估带来的优缺点相反。自动指标很方便——它们可以在整个训练过程中实时计算。然而,它们往往是不准确的,因为它们专注于表面层面的相似性,并且它们无法捕捉到人类语言的多样性。通常,有许多句子完全可以传达相同的含义。而只依赖于词法匹配的基于重叠的指标只能识别出那些只在表面形式上相似的句子,即使它们不能准确地捕获句子的真正含义。

BLEU三个候选句子的分数。候选2在语义上接近参考句子,但其分数低于候选3。

理想情况下,NLG的评估方法应该结合人类评估和自动指标的优势 —— 计算起来应该既高效快速,又具有足够的鲁棒性,并且可以识别句子的内在含义,还可以应对语言的多样性。

2.BLEBRT的介绍

BLEURT是一种新颖的,基于机器学习的自动评价指标,它可以捕捉句子之间的语义相似性。它使用一个公开的评分数据集(WMT共享数据集指标)和用户提供的其他的评分数据进行训练。

由BLEBRT打分的三个候选句子:BLEBRT捕捉到的候选句子2与参考句子更加相似,即使它比候选句子3包含更多的参考句之外的词

创建基于机器学习的自动评价指标有一项基本挑战:该评价指标应该在广泛的任务和领域中都具有良好的性能,也就是说具有领域迁移的能力和鲁棒性。但是,我们只有有限数量的训练数据。事实上,可以用的公共数据也很少——WMT Metrics Task 数据集是最大的人类评分集合,仅包含约260K人类评分,只包含新闻领域。这对于训练适合NLG系统的自动评估指标来说太有限了。

为了解决这个问题,该文章采用了迁移学习的方法。首先,使用BERT的上下文词表示,这是一种用于语言理解的最先进的无监督表示学习方法,已成功应用在NLG评估指标中(例如,YiSi 或 BERTscore)。

其次,该文章引入了一种新的预训练方案来增强BLEURT的鲁棒性。实验表明,直接在公开的人类评分数据集上训练回归模型是一种不具有鲁棒性的方法,因为我们无法控制将在哪个领域使用该指标。在存在领域迁移的情况下,准确率可能会下降。也就是说,当使用的文本来自与训练句子对不同的领域时,评估的质量可能下降。当出现质量漂移(当要预测的句子评分高于训练期间使用的评分)时,评估的质量也可能下降。这个特性通常是个好消息,因为它表明 ML 研究正在取得进展。

那么BLEURT是如何解决鲁棒性问题的呢? 在进行微调之前,它使用数百万个合成句子对对模型进行“warming-up”。“warming-up”的数据来自于维基百科,并且对这些句子进行一些随机的扰动(比如说回译、删除)。同时,这个阶段没有收集人工评分,而是使用以往工作中的一组指标和模型(包括 BLEU、ROUGE、BERTscore),这样可以以极低的成本扩大训练集。

BLEBRT的数据生成过程:将随机扰动和评分与预先存在的指标和模型相结合

实验表明,预训练显著提高了 BLEURT 的准确性,尤其是当测试数据分布不正常时。

该文章预训练了两次 BLEURT,首先是语言建模目标(如原始 BERT 论文中所述),然后是就是刚刚所介绍的“warming-up”阶段,使用了一些已有的NLG评价指标(BLEU、ROUGE、BERTscore)作为监督信号。然后在 WMT 指标数据集、用户提供的一组评级或两者的组合上微调模型。下图说明了 BLEURT 的端到端训练过程。

BLEBRT的端到端训练过程

结果

该文章将 BLEURT 与一些其他的自动评价指标进行对比,展现了它优越的性能。例如,在 2019 年的 WMT 指标共享任务中,BLEURT 的准确率比 BLEU 高约 48%。该文章还证明了预训练有助于 BLEURT 应对质量漂移。

不同指标与在WMT'19指标共享任务上的比较

结论

随着NLG模型的发展,评估指标已成为该领域研究的重要瓶颈。基于词法重叠的指标如此受欢迎有充分的理由:它们简单、一致,并且不需要任何训练数据。在每个候选句子都有多个参考句子的用例中,它们可能非常准确。虽然它们在一些基础实验中发挥着关键作用,但它们也非常保守,无法在语义层面对NLG系统进行评估。BLEURT是一种更灵活的语义级指标。由于采用了BERT的表示和新的预训练方案,BLEURT在两个学术基准上具有了 SOTA 性能,目前谷歌开发者们正在研究它如何改进谷歌产品。


原文链接:

https://ai.googleblog.com/2020/05/evaluating-natural-language-generation.html


hi,这里是小牛翻译~

想要看到更多我们的文章,可以关注下

机器翻译学堂(公号或网站)

笔芯~

往期精彩文章



BLEURT更鲁棒的NLG评价指标的评论 (共 条)

分享到微博请遵守国家法律