Pixel-BERT
目的:之前都是用Faster R-CNN做目标检测提取视觉特征,存在噪音冗余和语义鸿沟,通过pixel-based 特征提取,提高视觉表达的鲁棒性;
pixel-based:random pixel sampling mechanism,视觉特征提取后,在每个feature map里提取pixel作为视觉特征,相当于feature map内部的dropout。