大模型时代下做科研的四个思路【论文精读·52】

四大方向

1. Efficiency (PEFT - parameter efficient fine tuning)
2. Existing stuff (pre-trained model), new directions
3. Plug-and-play,例如新的loss function,新的data augmentation的方法,或者新的模块,可以应用到各种领域的,只需要选取一些baseline说明方法的有效性
4. Dataset (构建一个dataset), evaluation and survey (综述)
1. Efficiency (PEFT)
AIM - adapting image models for efficient video action recognition
- 回顾之前的工作,计算代价大,需要full fine tune.
- 研究动机来自CLIP,考虑到基座模型泛化性会越来越好,但是如果进行fine-tuned会有灾难性遗忘的问题,overfit得不偿失。能否把模型参数锁住,进行一些周边的改动
2种主要方法
Adapter

上图展示了adapter layer和它插进transformer block里
加adapter的作用
- 图中灰色的部分是frozen,模型微调过程中只训练adapter层,所以说是parameter efficient fine tuning,可训练参数量很少
Prompt (提示) tuning
拿CLIP来说,需要人工的prompt,称为hard prompt, 因此CoOP这篇文章提出,万物皆可学习,我直接学prompt,称为softprompt

图中绿色部分是learnable vector (context),模型训练过程中参数锁住不动,只学习prompt vector

以上是prompt tuning最简单的形式,之后还有很多后续工作,有文本的,就有视觉的prompt tuning,visual-prompt tuning (VPT)

VPT分为shallow和deep (图中只有红色是可训练的部分)
- shallow和文本端端差不多,把learnable prompt加在图像embedding之前,只训练prompt
- deep是在每一层都加上learnable prompt
共通性:对不同下游应用友好,computationally efficient
AIM也是类似的思路

2. Existing stuff (pre-trained model), new directions
现在能别碰预训练就别碰,能zero-shot就zero-shot,不能的话就few-shot,再不行就fine-tune,尽量用训练好的模型,尽量选一个新的,比较超前的,没有成熟benchmark的领域,专心在提高自己的方法上

想要强调的是,用预训练的模型,来做一些新的topic
3. Plug-and-play
- 损失函数
- 模块
- 数据增强
证明有效性,不需要打败sota,只需要在很多数据集上达到统一的提升,只要在统一的setting (可大可小) 里进行公平的比较
一个例子:MixGen
代码就三行

主要思路就是把图像缝合起来,文本直接拼接,形成新的训练数据图像文本对
4. Dataset (构建一个dataset), evaluation and survey (综述)
- benchmark dataset
- evaluation metric
- 合并数据集(但不是简单合并,比如class要重新分布之类的)