【InstructGPT论文精读】人机交互闭环开创AIGC新革命

InstrucrGPT 论文精读
GPT的发展史

摘要
创新点:基于人类强化学习的闭环模型
大家都知道模型越大,学到的东西越多,能力相对越强,但是??大语言模型有可能会产生不真实,有毒,没有帮助的结果。这是因为模型没有能和用户需要的目的达成一致。
所以这篇文章把用户意图和语言模型建立统一的关系,对大语言模型实施基于用户的反馈的精调。
怎么做呢?分两步实现
- 第一步是监督式的学习:基于prompt的提示学习,in-context learning ,情景式学习,将多轮对话限制在一个场景之中,对GPT3 微调。
- 第二步是强化学习,RLHF。
事实证明这样的效果还不错,两个方面:一是模型的参数降低,从GPT-3 175B的参数,降到了InstructGPT1.3B的参数,二是实验验证的效果还更好。
概述
大模型胡说八道的原因:很多模型是预测下一个token,并没有遵循用户的意图,答非所问,怎么做才能让模型实现有用,诚实,且无害的答案。解决的核心在于对齐技术 align,让模型意图和人类的意图一致。
具体思想是Instruct 和 GPT-3 实现对齐,用强化学习去反馈,引入了人类反馈去实现reward函数。主要分为三个步骤:

1,监督式学习微调:prompt的QA 人工很贵,数据量有限,训练不足,泛化能力有限。这部分工作可以怎么优化呢?目的是人意图和模型意图达成一致,那我让人给机器自动生成的答案去打分,这样也可以让机器知道人的意图喜好。
2,训练奖励模型:首先让机器对prompt,根据自己已有的模型算法生成多个答案,人负责给答案打分,再去训练一个reward model 去学到人类打分的模型,相当于reward model就知道了人类的喜好。
3,训练强化学习模型:利用学到的打分模型到强化学习的框架中自学,生成prompt,生成答案,去打分,更新生成的策略,不停的迭代。(PPO算法)
2,3步反复迭代
InstructGPT整个过程中付出了多余的计算,称为tax,很有意思
核心方法
将RLHF用
如何遵循人类的意图去训练模型
评价
如何修改语言模型的工作
三步走
训练数据,验证,测试数据集
每个打分的标注着ID最多只有200个提问
三种prompt:(附录A2.1有)
plain:
few-shot:
user-based:已有的用例写指令

任务是什么:
更看重真实性和无害性
Models
SFT--- 有监督式的prompt微调,训练16 epoch,因为训练数据不多,一遍之后就开始overfit,但还好,对后面的RM和打分还有帮助
RM --- SFT网络的最后一层,输入式prompt 输出是一个标量的分数,

PPO --- 没有看懂,可以进这个链接,我会后期补充

实验结果
延伸讨论
1,align,闭环系统,align的投入产出比高,instruct 的泛化?
2,和谁align,人是谁?
3,局限性,数据的来源很关键
4,instructGPT还是有局限