ChatGPT|Transformer模型|Attention Is All You Need
Abstract
主要的序列转导模型是基于复杂的循环或卷积神经网络,其中包括一个编码器和一个解码器。表现最好的模型还通过注意机制连接编码器和解码器。我们提出了一个新的简单的网络架构,变压器,完全基于注意力机制,完全免除递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更具有并行性,需要的训练时间也大大减少。我们的模型在WMT 2014英语-德语翻译任务中达到了28.4 BLEU,比现有的最佳结果(包括集合)提高了超过2 BLEU。在WMT 2014英语到法语的翻译任务中,我们的模型在8个gpu上训练3.5天后,建立了一个新的单模型最先进的BLEU评分41.8,这只是文献中最好模型训练成本的一小部分。通过将Transformer成功应用于大量和有限训练数据的英语选区解析,我们表明Transformer可以很好地推广到其他任务。
1 Introduction
Transformer是一种特殊的Encoder-Decoder模型,由Google Brain团队在2017年提出,这一模型可以实现基于RNN模型的Encoder-Decoder模型的所有功能,并且处理效果实现了大幅度提升,同时支持并行化操作,因而可以更好地支持GPU矩阵计算。Transformer模型等价于一个有Self-Attention层的Seq2Seq模型。Transformer模型结构如下:


1、传统RNN模型的问题
传统的RNN模型(包括LSTM以及GRU模型)的计算是顺序的,因此RNN模型的算法只能按照序列的正序或者逆序依次计算,这样的算法会带来两个问题:
1、计算t时刻的数据依赖于t时刻之前的计算结果,因此模型很难进行并行运算。
2、顺序计算过程中会造成信息丢失,尽管LSTM以及Attention机制一定程度上缓解了这一问题,但是对于特别长的序列(例如序列为一篇文章的情况),上述机制依然难以解决这样的问题。
因此,有人提出使用CNN网络架构来解决并行计算的问题,使用多个Filer来采集不同的特征,使用深层网络来增强Filer读取信息的长度(即较长时间的信息),这样做的缺点就是如果需要读取较长时间的信息,那么CNN网络会特别深。而Transformer的提出更好的解决了以上两个问题。