Transformer是目前NLP领域最强悍的特征提取器。
因为先天的序列结构,所以在Transformer之前,RNN是NLP里的主角。但是也因为这种序列结构的依赖性,使得RNN受制于并行计算能力。Transformer是叠加的"Self Attention"构成的深度网络,因此其并行计算能力是与生俱来的。由于这种先天性的优势,近年在NLP领域Transformer不断抢戏RNN,相信