Meta transformer大一统模型，港中文力作

2023-08-18 14:40 作者:傑君 0人读过 | 我要投稿

1.模型可统合数据类型

使用Data2Seq，有点类似于NLP中的Seq2Seq。

无需配对数据，而是将所有类型数据，用Data2Seq统一编码到一个共同空间中，转换为token后，使用统一的模态共享编码器继续编码该序列，从而Meta-Transformer可以感知相应模态并训练。

三个部分组成：

核心：数据分组 — 卷积提取局部语义 — 语义聚合 — 空间映射

1.LAION-2B数据集与训练，冻结参数，得到深度为L的Transformer编码器（多个堆叠的多头自注意力(MSA)层和MLP块组成）

2.输入的 token 首先进入 MSA 层，然后进入 MLP 块。然后第 (ℓ- 1) 个 MLP 块的输出作为第ℓ个 MSA 层的输入，层归一化（LN）被添加到每一层之前。MLP 包含两个线性 FC 层和一个 GELU 非线性激活层。

在获得学习表征后，研究人员将表征输入特定任务的头，它主要由 MLP 组成，因模态和任务而异。

能处理的模态及对应任务：

雷达图

分别在 ImageNet-1K 图像分类，MS COCO 目标检测，以及 ADE-20K 的语义分割上进行了评估

https://doi.org/10.48550/arXiv.2307.10802