输入:对齐的图文数据模型:3个encoder组成
Image encoder模型:12-layer visual transformer ViT-B/16,在ImageNet-1k上进行权重初始化;输入:Image I输出:开头添加[CLS]token的embedding 序列,
Text encoder模型:6-layer transformer,BERTbase前6层初始化输入:序列T