Oscar
目的:同图片中的object tags作为anchor points辅助学习多模态对齐的信息;
输入为3元组Word-Tag-Image;
通过Faster R-CNN检测的k个高精度region作为object tags。