Transformer与联邦学习高阶研修班CV Transformer
Encoder
分为两个部分:word embedding 和 position encoding
word embedding:这种技术会把单词或者短语映射到一个n维的数值化向量,初始化后跟着训练或者使用word2vec这种已经有的看具体任务的效果.
position encoding:构造一个跟输入embedding维度一样的矩阵,然后跟输入embedding相加得到multi-head attention 的输入。在paper中,作者使用的positional encoding如下:

