深度学习人工智能Paper年度会员(推荐系统方向)
Related work and the limit
在传统的NLP任务中,RNN等序列模型,自身便包含了词的位置信息。而Transformer模型采用Attention机制来学习各个词之间的关系,抛弃了它们的位置信息。但在语言理解中,位置信息是非常重要的,因此需要显式地生成position encoding,手动加入各点的位置信息。而对于图像领域的Vision Transformer,二维图像各个patch之间的相对位置关系也对物体的模式理解有重要的作用。