欢迎光临散文网 会员登陆 & 注册

InstructGPT 论文精读【论文精读】

2022-12-30 16:31 作者:層林尽染  | 我要投稿


18:54


Transformer模型就是一个对整个数据做压缩的模型,把整个数据的信息压缩进模型的参数。现在假如信噪比变高了,而且标注的信息跟你最后要评估的数据集可能更加近一点,导致不需要压缩那么多东西也可以实现同样的效果。


25:13


(复制自弹幕)

第一步,手动选择一些问题并以人工的方式给出答案,以上述作为数据集来训练SFT模型

第二步:让训练好的SFT模型回答一些问题,人工对答案进行打分,然后以这一部分数据集来训练RM模型

第三步,根据RM模型的打分结果,继续优化SFT模型


49:33


论文里面提到overfit的原因:如果不把36个pair放在一个batch里面,会导致每个答案被学习8次


01:04:14


从技术上来讲,InstructGPT还是一个挺实用的技术,它告诉了大家一个方法,说给定一个比较大的语言模型,你怎样通过一些标注数据,能迅速地把它在某一个你关心领域上的性能提升,使得它能达到一个实用的阶段。

如果大家想用这种生成模型做产品,这篇文章就提供了一个实际可操作的思路。

InstructGPT 论文精读【论文精读】的评论 (共 条)

分享到微博请遵守国家法律