欢迎光临散文网 会员登陆 & 注册

Meta transformer大一统模型,港中文力作

2023-08-18 14:40 作者:傑君  | 我要投稿

1.模型可统合数据类型

可以看到非常多的模态

2.如何统一

使用Data2Seq,有点类似于NLP中的Seq2Seq。

无需配对数据,而是将所有类型数据,用Data2Seq统一编码到一个共同空间中,转换为token后,使用统一的模态共享编码器继续编码该序列,从而Meta-Transformer可以感知相应模态并训练。

3.方法介绍

  3.1组成部分:

  三个部分组成:

  • Data2Seq tokenization模块:

  核心:数据分组 — 卷积提取局部语义 — 语义聚合 — 空间映射

Data2Seq tokenization模块
  • 统一的共享编码模块

  1.LAION-2B数据集与训练,冻结参数,得到深度为L的Transformer编码器(多个堆叠的多头自注意力(MSA)层和MLP块组成)

  2.输入的 token 首先进入 MSA 层,然后进入 MLP 块。然后第 (ℓ- 1) 个 MLP 块的输出作为第ℓ个 MSA 层的输入,层归一化(LN)被添加到每一层之前。MLP 包含两个线性 FC 层和一个 GELU 非线性激活层。

  • 下游任务学习模块

在获得学习表征后,研究人员将表征输入特定任务的头,它主要由 MLP 组成,因模态和任务而异。

实验结果

能处理的模态及对应任务:

雷达图

分别在 ImageNet-1K 图像分类,MS COCO 目标检测,以及 ADE-20K 的语义分割上进行了评估

https://doi.org/10.48550/arXiv.2307.10802

Meta transformer大一统模型,港中文力作的评论 (共 条)

分享到微博请遵守国家法律