欢迎光临散文网 会员登陆 & 注册

大模型时代科研的思路

2023-04-06 22:17 作者:AI搬砖er  | 我要投稿
  1. efficient:parameters efficient fine-tuning;做模型的效率,在下游任务上进行少量参数的更新。(关注的是如何对大模型进行微调)

    随着模型越来越大,模型的能力也越来越强,与其在小模型上来做预训练,某种程度上是不如在大模型的基础上进行少量参数的微调更新的。因为大模型的拟合能力更强,基座模型能有保证,在这方面来做也是为了探究大模型的能力边界。在它已经学到的世界知识基础上进行finetuning能够带来多少的效果提升。

    另一方面,小模型上,对于训练数据集的大小,模型是否已经学到部分知识也是存疑的,另一方面,关于基础的信息模型是也没有学到的,那部分的知识能有多重要,以及新的模型数据集中是不是应该添加这部分的信息,其实这也是肯定的—是一种高层信息和底层信息的关系,在通用的基础理解之上再构建更高级的信息。

    • adapter layer:在原本模型的基础上再增加一些层,在模型更新时,只更新这部分参数。

    • prompt tuning:在下游fine- tuning时,将输入构建成预训练的形式。全量更新。🐦

  2. exiting stuff with new direction:在大模型基础上研究新方向。

    • causality learning

    • in-context learning

    • FFN:Feedforward network(前向网络,lly也提到和人的神经建模方式类似,没有反向的梯度更新)

    • chain of thought

    • prompting

  3. plug and play:研究即插即用的小模块,通用的模型小部件的研究,但是不需要对模型整体进行训练才能验证的模块,而且是能够在多种模型上发挥作用的。🀄️

    这种类型的研究往往代码量比较少,但是能产生通用的效果,能够在多个模型进行插入验证效果。

    目前看来是实行起来比较友好的。🐦

    • 研究损失函数的:non-local loss,focal loss

    • data argumentation:数据增强的,比如mirgen

  4. datasets, evaluationg and survey:做数据集,验证评测和综述类文章。

其他访谈涉及到的方向:

  1. retrival transformers:openai首席科学家提到的技术方向,去年openai一直在做的方向

  2. reasoning tokens

  3. alignment:这块的解释是对模型进行限制,来让模型向人类世界或者真实世界靠齐,属于chatgpt下面比较热门的topic。具体应该设计RL的相关东西。

  4. RL:dota2 去年openai比较重要的研究主要分为两块,一个是chatgpt,另一个就是强化学习。强化学习对于alignment有重要作用。

关于gpt大模型的本质的看法:

gpt是通过NSP任务学习整个世界,本质是一个概率模型,学习到的是续写任务,给出前面的内容,按照学到的世界知识续写最有可能的后面内容。但是学到的东西和我们想要它做的下游任务或者生成的内容不一定可控,是要结合其他模型进行控制的,也就是fine-tuning。表现在chatgpt里就是又添加了RLHF等模块。

另外大佬们都提到做研究的paradimm范式已经被改变了:直观上是讲做大模型已经行不通了,普通人机构根本没有资源来这么做,只能靠微调进行,以及更深层次的范式改变是什么?🀄️

以及lstm中没学习到一个特征就会产生一个sentiment node的想法。

  • 评论区摘要

    追求性能没有创新点?有限资源的轻量化和快速化在系统领域比较多?系统领域(MobiSys,MobiCom,SenSys等系统顶会)卷了好长时间了。理论方面,勉强还可以用结合symbolic搞搞ethics和fairness?

    PEFT属于比较火且实用的方向:

    Ruder的Modular Deep Learning综述https://www.ruder.io/modular-deep-learning/

    gcn;

    做论文的要点点:

    peft:ladder side tuning Efficient Video Understanding (EVL) (ECCV22) 《Prompting Visual-Language Models for Efficient Video Understanding》虽然是视觉领域,但在李满主要是peft方法nb

    lightweight问题:msa/reshape+adapter去到分别处理spatial 和 temporal self-attention,除了something-something这种非常重时序识别的效果都极佳

    RemoteSensing

    知识蒸馏轻量化是很火的方向;

    facebook dmca:https://ipfs.io/ipfs/QmYyucgBQVfs9JXZ2MtmkGPAhgUjNgyGE6rcJT1KybQHhp/index.html

    domain adaption和generalization 需要的算力并不多,大部分结果就是224的图 resnet18/50跑一下就可以了,不过这个比较偏ML了,目前也很卷了。。

    • yizhu视频中提到的论文:

      Scaling Vision Transformers to 22 Billion Parameters, CV的大模型

      AIM: Adapting Image Models for Efficient Video Action Recognition,朱老师他们对于视频理解刚发表的论文

      Parameter-Efficient Transfer Learning for NLP ,第一次出现PEFT概念的论文

      Learning to Prompt for Vision-Language Models (CoOP), Prompt在CV中应用的论文,多模态的工作(文本+图片)

      Visual Prompt Tuning, Prompt在纯视觉中应用的论文

      PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware, huggingface的对于PEFT的blog

      Towards a Unified View of Parameter-Efficient Transfer Learning, 很好的描写PEFT综述论文

      Unsupervised Semantic Segmentation with Self-supervised Object-centric Representations, 第二个方向的论文例子,新topic中的研究

      MixGen: A New Multi-Modal Data Augmentation, 第三个方向中的论文例子, 即插即用的模块

      BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training,第四个方向中数据库的例子

      A Comprehensive Study of Deep Video Action Recognition,第四个方向中综述的例子

      新topic:Causality Learning,Hinton的FFNet; In-context Learning; Chain of Thought Prompting


大模型时代科研的思路的评论 (共 条)

分享到微博请遵守国家法律