InstructGPT 论文精读【论文精读】

18:54
Transformer模型就是一个对整个数据做压缩的模型,把整个数据的信息压缩进模型的参数。现在假如信噪比变高了,而且标注的信息跟你最后要评估的数据集可能更加近一点,导致不需要压缩那么多东西也可以实现同样的效果。
25:13
(复制自弹幕)
第一步,手动选择一些问题并以人工的方式给出答案,以上述作为数据集来训练SFT模型
第二步:让训练好的SFT模型回答一些问题,人工对答案进行打分,然后以这一部分数据集来训练RM模型
第三步,根据RM模型的打分结果,继续优化SFT模型
49:33
论文里面提到overfit的原因:如果不把36个pair放在一个batch里面,会导致每个答案被学习8次
01:04:14
从技术上来讲,InstructGPT还是一个挺实用的技术,它告诉了大家一个方法,说给定一个比较大的语言模型,你怎样通过一些标注数据,能迅速地把它在某一个你关心领域上的性能提升,使得它能达到一个实用的阶段。
如果大家想用这种生成模型做产品,这篇文章就提供了一个实际可操作的思路。