目的:fusion前学习单模态表征目标函数:similarity function,使得对齐图文有更高的相似分数
:对应的[CLS] embedding 经过softmax normalization得到256d的向量特点:受MoCo启发,用2个队列存储最近的M个图文对(本文M=65536),标准化后的特