大模型时代下做科研的四个思路【论文精读·52】

2023-08-28 12:00 作者:TYの阿凯 0人读过 | 我要投稿

四大方向

1. Efficiency (PEFT - parameter efficient fine tuning)

2. Existing stuff (pre-trained model), new directions

3. Plug-and-play，例如新的loss function，新的data augmentation的方法，或者新的模块，可以应用到各种领域的，只需要选取一些baseline说明方法的有效性

4. Dataset (构建一个dataset), evaluation and survey (综述)

1. Efficiency (PEFT)

AIM - adapting image models for efficient video action recognition

回顾之前的工作，计算代价大，需要full fine tune.
研究动机来自CLIP，考虑到基座模型泛化性会越来越好，但是如果进行fine-tuned会有灾难性遗忘的问题，overfit得不偿失。能否把模型参数锁住，进行一些周边的改动

2种主要方法

Adapter

上图展示了adapter layer和它插进transformer block里

加adapter的作用

Prompt (提示) tuning

拿CLIP来说，需要人工的prompt，称为hard prompt，因此CoOP这篇文章提出，万物皆可学习，我直接学prompt，称为softprompt

图中绿色部分是learnable vector (context)，模型训练过程中参数锁住不动，只学习prompt vector

以上是prompt tuning最简单的形式，之后还有很多后续工作，有文本的，就有视觉的prompt tuning，visual-prompt tuning (VPT)

VPT分为shallow和deep (图中只有红色是可训练的部分)

共通性：对不同下游应用友好，computationally efficient

AIM也是类似的思路

2. Existing stuff (pre-trained model), new directions

现在能别碰预训练就别碰，能zero-shot就zero-shot，不能的话就few-shot，再不行就fine-tune，尽量用训练好的模型，尽量选一个新的，比较超前的，没有成熟benchmark的领域，专心在提高自己的方法上

想要强调的是，用预训练的模型，来做一些新的topic

3. Plug-and-play

证明有效性，不需要打败sota，只需要在很多数据集上达到统一的提升，只要在统一的setting (可大可小) 里进行公平的比较

一个例子：MixGen

代码就三行

主要思路就是把图像缝合起来，文本直接拼接，形成新的训练数据图像文本对

4. Dataset (构建一个dataset), evaluation and survey (综述)

标签：

大模型时代下做科研的四个思路【论文精读·52】的评论 (共条)