欢迎光临散文网 会员登陆 & 注册

人工智能AI面试题-6.2请详细说说Transformer

2023-10-16 11:35 作者:机器爱上学习  | 我要投稿

6.2请详细说说Transformer 6.2 论Transformer之奥妙(详解与图解并茂) 编者按:前不久🔍Google推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。然而,BERT之成功的关键在于Transformer的强大作用。🔍Google的Transformer模型最早用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练速度慢的问题,利用self-attention机制实现了快速并行计算。此外,Transformer能够扩展到非常深的层次,充分发掘了DNN模型的特性,提高了模型的准确率。在本文中,我们将深入研究Transformer模型,将其剖析细致入微,以便更好地理解其工作原理。 正文: Transformer由论文《Attention is All You Need》提出,现在已经成为🔍Google云TPU推荐的参考模型。相关的Tensorflow代码可从GitHub获取,它作为Tensor2Tensor包的一部分。哈佛大学的NLP团队也实现了一个基于PyTorch的版本,并对论文进行了详细注释。 在本文中,我们将试图将这个模型简化一些,逐一介绍其中的核心概念,希望让广大读者也能轻松理解。 Attention is All You Need:https://arxiv.org/abs/1706.03762 从宏观的角度开始 首先,将这个模型看作是一个📦黑箱操作。在机器翻译中,就是输入一种语言,输出另一种语言。 那么拆开这个📦黑箱,我们可以看到它是由编码组件、解码组件以及它们之间的连接组成。 编码组件部分由一堆编码器(encoder)构成(论文中是将6个编码器叠在一起——数字6没有什么神奇之处,你也可以尝试其他数字)。解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。 所有的编码器在结构上都是相同的,但它们没有共享参数。每个解码器都可以分解成两个子层。 从编码器输入的句子首先会经过一个⾃注意⼒(self-attention)层,这层帮助编码器在对每个单词编码时关注输入句子的其他单词。我们将在稍后的篇章中更深入地研究⾃注意⼒。 ⾃注意⼒层的输出会传递到前馈(feed-forward)神经网络中。每个位置的单词对应的前馈神经网络都完全相同(译注:另一种解读就是一层窗户为一个单词的一维卷积神经网络)。 解码器中也有编码器的⾃注意⼒(self-attention)层和前馈(feed-forward)层。除此之外,这两个层之间还有一个注意⼒层,⽤来关注输入句子的相关部分(和seq2seq模型的注意⼒作⽤相似)。 引入张量的视角 我们已经了解了模型的主要部分,接下来我们看一下各种向量或张量(译注:张量概念是向量概念的推广,可以简单理解向量是一阶张量,矩阵是二阶张量)是如何在模型的不同部分中,将输入转化为输出的。 以上为改写后的解答全文,希望对你理解Transformer模型有所帮助。如果有更多问题或需要进一步解释,请随时提出。

人工智能AI面试题-6.2请详细说说Transformer的评论 (共 条)

分享到微博请遵守国家法律