欢迎光临散文网 会员登陆 & 注册

大模型时代下做科研的四个思路【论文精读·52】

2023-08-28 12:00 作者:TYの阿凯  | 我要投稿

四大方向


1. Efficiency (PEFT - parameter efficient fine tuning)

2. Existing stuff (pre-trained model), new directions

3. Plug-and-play,例如新的loss function,新的data augmentation的方法,或者新的模块,可以应用到各种领域的,只需要选取一些baseline说明方法的有效性

4. Dataset (构建一个dataset), evaluation and survey (综述)


1. Efficiency (PEFT)

AIM - adapting image models for efficient video action recognition

  • 回顾之前的工作,计算代价大,需要full fine tune.
  • 研究动机来自CLIP,考虑到基座模型泛化性会越来越好,但是如果进行fine-tuned会有灾难性遗忘的问题,overfit得不偿失。能否把模型参数锁住,进行一些周边的改动

2种主要方法

Adapter

上图展示了adapter layer和它插进transformer block里

加adapter的作用

  • 图中灰色的部分是frozen,模型微调过程中只训练adapter层,所以说是parameter efficient fine tuning,可训练参数量很少


Prompt (提示) tuning

拿CLIP来说,需要人工的prompt,称为hard prompt, 因此CoOP这篇文章提出,万物皆可学习,我直接学prompt,称为softprompt

图中绿色部分是learnable vector (context),模型训练过程中参数锁住不动,只学习prompt vector

以上是prompt tuning最简单的形式,之后还有很多后续工作,有文本的,就有视觉的prompt tuning,visual-prompt tuning (VPT)

VPT分为shallow和deep (图中只有红色是可训练的部分)

  • shallow和文本端端差不多,把learnable prompt加在图像embedding之前,只训练prompt
  • deep是在每一层都加上learnable prompt

共通性:对不同下游应用友好,computationally efficient

AIM也是类似的思路


2. Existing stuff (pre-trained model), new directions

现在能别碰预训练就别碰,能zero-shot就zero-shot,不能的话就few-shot,再不行就fine-tune,尽量用训练好的模型,尽量选一个新的,比较超前的,没有成熟benchmark的领域,专心在提高自己的方法上


想要强调的是,用预训练的模型,来做一些新的topic


3. Plug-and-play

  • 损失函数
  • 模块
  • 数据增强

证明有效性,不需要打败sota,只需要在很多数据集上达到统一的提升,只要在统一的setting (可大可小) 里进行公平的比较

一个例子:MixGen

代码就三行

主要思路就是把图像缝合起来,文本直接拼接,形成新的训练数据图像文本对


4. Dataset (构建一个dataset), evaluation and survey (综述)

  • benchmark dataset
  • evaluation metric
  • 合并数据集(但不是简单合并,比如class要重新分布之类的)






大模型时代下做科研的四个思路【论文精读·52】的评论 (共 条)

分享到微博请遵守国家法律