NCODER分两层:自注意力层、前馈神经网络层。自注意力层帮助编码器在对每个单词编码时关注单词的上下文单词。
DECODER分三层:自注意力层、编码-解码注意力层、前馈神经网络层。编码-解码注意力层用来关注输入句子的相关部分。
到这里,我们已经大概知道了Transformer的结构。下面我们从张量的角度来看看一个输入句子在模型不同部分的变化,以及最后是如何变成输出的。
编码器