欢迎光临散文网 会员登陆 & 注册

深度学习【天池】ICDAR 文本篡改分类和检测

2023-02-22 13:40 作者:假面卡推应援会  | 我要投稿

提取的视觉token和文本token不对齐,做图文特征交叉是个难点。
之前的模型,使用bounding box提取region feature,本文提出ALBEF,通过cross-modal attention,实现图文表征学习。且为了从noisy的web数据上提升模型效果,提出momentum distillation,这是一种self-training method,学习pseudo-targets。实验结果显示,模型在多个下游任务上,达到SOTA。

深度学习【天池】ICDAR 文本篡改分类和检测的评论 (共 条)

分享到微博请遵守国家法律