InstructGPT 论文精读【论文精读】

2022-12-30 16:31 作者:層林尽染 0人读过 | 我要投稿

18:54

Transformer模型就是一个对整个数据做压缩的模型，把整个数据的信息压缩进模型的参数。现在假如信噪比变高了，而且标注的信息跟你最后要评估的数据集可能更加近一点，导致不需要压缩那么多东西也可以实现同样的效果。

25:13

（复制自弹幕）

第一步，手动选择一些问题并以人工的方式给出答案，以上述作为数据集来训练SFT模型

第二步：让训练好的SFT模型回答一些问题，人工对答案进行打分，然后以这一部分数据集来训练RM模型

第三步，根据RM模型的打分结果，继续优化SFT模型

49:33

论文里面提到overfit的原因：如果不把36个pair放在一个batch里面，会导致每个答案被学习8次

01:04:14

从技术上来讲，InstructGPT还是一个挺实用的技术，它告诉了大家一个方法，说给定一个比较大的语言模型，你怎样通过一些标注数据，能迅速地把它在某一个你关心领域上的性能提升，使得它能达到一个实用的阶段。

如果大家想用这种生成模型做产品，这篇文章就提供了一个实际可操作的思路。

标签：

InstructGPT 论文精读【论文精读】的评论 (共条)