Meta transformer大一统模型,港中文力作
1.模型可统合数据类型

2.如何统一
使用Data2Seq,有点类似于NLP中的Seq2Seq。
无需配对数据,而是将所有类型数据,用Data2Seq统一编码到一个共同空间中,转换为token后,使用统一的模态共享编码器继续编码该序列,从而Meta-Transformer可以感知相应模态并训练。
3.方法介绍
3.1组成部分:
三个部分组成:
Data2Seq tokenization模块:
核心:数据分组 — 卷积提取局部语义 — 语义聚合 — 空间映射

统一的共享编码模块
1.LAION-2B数据集与训练,冻结参数,得到深度为L的Transformer编码器(多个堆叠的多头自注意力(MSA)层和MLP块组成)
2.输入的 token 首先进入 MSA 层,然后进入 MLP 块。然后第 (ℓ- 1) 个 MLP 块的输出作为第ℓ个 MSA 层的输入,层归一化(LN)被添加到每一层之前。MLP 包含两个线性 FC 层和一个 GELU 非线性激活层。
下游任务学习模块
在获得学习表征后,研究人员将表征输入特定任务的头,它主要由 MLP 组成,因模态和任务而异。
实验结果
能处理的模态及对应任务:

雷达图

分别在 ImageNet-1K 图像分类,MS COCO 目标检测,以及 ADE-20K 的语义分割上进行了评估

https://doi.org/10.48550/arXiv.2307.10802