人工智能AI面试题-6.2请详细说说Transformer

2023-10-16 11:35 作者:机器爱上学习 0人读过 | 我要投稿

6.2请详细说说Transformer 6.2 论Transformer之奥妙（详解与图解并茂）编者按：前不久🔍Google推出的BERT模型在11项NLP任务中夺得SOTA结果，引爆了整个NLP界。然而，BERT之成功的关键在于Transformer的强大作用。🔍Google的Transformer模型最早用于机器翻译任务，当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练速度慢的问题，利用self-attention机制实现了快速并行计算。此外，Transformer能够扩展到非常深的层次，充分发掘了DNN模型的特性，提高了模型的准确率。在本文中，我们将深入研究Transformer模型，将其剖析细致入微，以便更好地理解其工作原理。正文： Transformer由论文《Attention is All You Need》提出，现在已经成为🔍Google云TPU推荐的参考模型。相关的Tensorflow代码可从GitHub获取，它作为Tensor2Tensor包的一部分。哈佛大学的NLP团队也实现了一个基于PyTorch的版本，并对论文进行了详细注释。在本文中，我们将试图将这个模型简化一些，逐一介绍其中的核心概念，希望让广大读者也能轻松理解。 Attention is All You Need：https://arxiv.org/abs/1706.03762 从宏观的角度开始首先，将这个模型看作是一个📦黑箱操作。在机器翻译中，就是输入一种语言，输出另一种语言。那么拆开这个📦黑箱，我们可以看到它是由编码组件、解码组件以及它们之间的连接组成。编码组件部分由一堆编码器（encoder）构成（论文中是将6个编码器叠在一起——数字6没有什么神奇之处，你也可以尝试其他数字）。解码组件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。所有的编码器在结构上都是相同的，但它们没有共享参数。每个解码器都可以分解成两个子层。从编码器输入的句子首先会经过一个⾃注意⼒（self-attention）层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。我们将在稍后的篇章中更深入地研究⾃注意⼒。⾃注意⼒层的输出会传递到前馈（feed-forward）神经网络中。每个位置的单词对应的前馈神经网络都完全相同（译注：另一种解读就是一层窗户为一个单词的一维卷积神经网络）。解码器中也有编码器的⾃注意⼒（self-attention）层和前馈（feed-forward）层。除此之外，这两个层之间还有一个注意⼒层，⽤来关注输入句子的相关部分（和seq2seq模型的注意⼒作⽤相似）。引入张量的视角我们已经了解了模型的主要部分，接下来我们看一下各种向量或张量（译注：张量概念是向量概念的推广，可以简单理解向量是一阶张量，矩阵是二阶张量）是如何在模型的不同部分中，将输入转化为输出的。以上为改写后的解答全文，希望对你理解Transformer模型有所帮助。如果有更多问题或需要进一步解释，请随时提出。

标签：

人工智能AI面试题-6.2请详细说说Transformer

人工智能AI面试题-6.2请详细说说Transformer的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

人工智能AI面试题-6.2请详细说说Transformer

本文作者的其他文章

人工智能AI面试题-6.2请详细说说Transformer的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

人工智能AI面试题-6.2请详细说说Transformer的评论 (共条)