欢迎光临散文网 会员登陆 & 注册

【InstructGPT论文精读】人机交互闭环开创AIGC新革命

2023-02-28 19:57 作者:Dekuan8  | 我要投稿

InstrucrGPT 论文精读

GPT的发展史

摘要

创新点:基于人类强化学习的闭环模型

大家都知道模型越大,学到的东西越多,能力相对越强,但是??大语言模型有可能会产生不真实,有毒,没有帮助的结果。这是因为模型没有能和用户需要的目的达成一致。

所以这篇文章把用户意图和语言模型建立统一的关系,对大语言模型实施基于用户的反馈的精调。

怎么做呢?分两步实现

  • 第一步是监督式的学习:基于prompt的提示学习,in-context learning ,情景式学习,将多轮对话限制在一个场景之中,对GPT3 微调。
  • 第二步是强化学习,RLHF。

事实证明这样的效果还不错,两个方面:一是模型的参数降低,从GPT-3 175B的参数,降到了InstructGPT1.3B的参数,二是实验验证的效果还更好。

概述

大模型胡说八道的原因:很多模型是预测下一个token,并没有遵循用户的意图,答非所问,怎么做才能让模型实现有用,诚实,且无害的答案。解决的核心在于对齐技术 align,让模型意图和人类的意图一致。

具体思想是Instruct 和 GPT-3 实现对齐,用强化学习去反馈,引入了人类反馈去实现reward函数。主要分为三个步骤:

1,监督式学习微调:prompt的QA 人工很贵,数据量有限,训练不足,泛化能力有限。这部分工作可以怎么优化呢?目的是人意图和模型意图达成一致,那我让人给机器自动生成的答案去打分,这样也可以让机器知道人的意图喜好。

2,训练奖励模型:首先让机器对prompt,根据自己已有的模型算法生成多个答案,人负责给答案打分,再去训练一个reward model 去学到人类打分的模型,相当于reward model就知道了人类的喜好。

3,训练强化学习模型:利用学到的打分模型到强化学习的框架中自学,生成prompt,生成答案,去打分,更新生成的策略,不停的迭代。(PPO算法)

2,3步反复迭代

InstructGPT整个过程中付出了多余的计算,称为tax,很有意思

核心方法

将RLHF用

如何遵循人类的意图去训练模型

评价

如何修改语言模型的工作

三步走

训练数据,验证,测试数据集

每个打分的标注着ID最多只有200个提问

三种prompt:(附录A2.1有)

plain:

few-shot:

user-based:已有的用例写指令

任务是什么:

更看重真实性和无害性

Models

SFT--- 有监督式的prompt微调,训练16 epoch,因为训练数据不多,一遍之后就开始overfit,但还好,对后面的RM和打分还有帮助

RM --- SFT网络的最后一层,输入式prompt 输出是一个标量的分数,

PPO --- 没有看懂,可以进这个链接,我会后期补充


实验结果

延伸讨论

1,align,闭环系统,align的投入产出比高,instruct 的泛化?

2,和谁align,人是谁?

3,局限性,数据的来源很关键

4,instructGPT还是有局限

【InstructGPT论文精读】人机交互闭环开创AIGC新革命的评论 (共 条)

分享到微博请遵守国家法律