【D1n910学AI】第一次读外论文，第一遍读2019-BERT的论文

2023-05-06 23:55 作者:爱交作业的D1N910 0人读过 | 我要投稿

正常操作，正常分析，大家好我是D1N910。

我学习了李沐老师说的读论文的方法后，现在来实践了。

第一遍读

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

1、title

自翻：

Pre-training 预训练

Bidirectional 双方向？二元方向？

Transformers 转移

Language Understanding 语言理解

自翻组合：

BERT：基于语言理解方向的深度两方向转移的预训练方法

作者：扎克伯格·戴维林、常名威、肯托·李、克里斯娜·陶安娃

团队：谷歌AI语言

底下的那一串花括号的应该是为了节约一下资源，所以大家的邮箱都是@google.com后缀的，就统一了(o´ω`o)و

咨询大哥

我：你好，请帮我用中国大陆计算机研究人员的翻译习惯，翻译一下下面的论文的标题和人名：

这里是标题的英文版内容

大哥：

标题：BERT：深度双向Transformer语言理解的预训练

人名：

Jacob Devlin：雅各布·德夫林
Ming-Wei Chang：张铭伟
Kenton Lee：肯顿·李
Kristina Toutanova：克里斯蒂娜·托托诺娃

机构：Google AI Language (谷歌人工智能语言部门)

我：我想知道为什么上面的标题里，transformer后面为什么要加s？

大哥：在这篇论文中，“transformer”后面加了“s”，指的是一种模型结构——Transformer模型（Transformer model），其中“Transformer”是名词单数形式，而在这篇论文中，是用了“Transformers”的名词复数形式，指的是将多个Transformer模型结合在一起的系统。这样的命名方式可能是为了突出这篇论文所提出的模型的独特之处，以及它是建立在之前Transformer模型的基础上的，所以使用了复数形式。

2、Abstract

本文介绍了一种新的语言表达模型——BERT，它是由 Bidirectional Encoder Representations from Transformers （对于Transformer的双向编码表达）的首字母组成的。与现有的语言表达模型（Peters et al., 2018a; Radford et al., 2018）的不同，我们设计的BERT可以通过给没有标签的文字加入左边和右边的上下文，从而可以在所有的框架里进行文字预处理。结果表明，预处理REPT模型对于广泛的任务，可以在只有一个附加的输出框架时，创建优秀的模型，比如问题回答和语言引用，而不需要大量的基于任务特殊的结构上的修改。

BERT在概念上虽然简单，但是实践起来却非常强大。在11种自然语言处理任务下，它都有着更优秀的表现，包括把GLUE的分数提高到80.5%（完全提高了7.7%），MultiNLI 精确度到达86.7%（完全提高了4.6%），SQuAD v1.1 问题回答测试F1达到93.2（完全提高了1.5）以及SQuAD v2.0 测试F1打到83.1（5.1 pint absolute improvement）。

从摘要里，我得到的信息是这个BERT可能是类似中间件的东西，在现有的自然语言处理模型里，我可以加入BERT并且能够提升得到的结果。