不能使用最后一层的Encoder Block的MLP Block的特征矩阵做A反向传播求梯度矩阵A',因为其每一个token(即特征矩阵的每一行)没有和其他176个token做信息交换。所以必须选取最后一层的Encoder Block的做自注意力前的输入。