欢迎光临散文网 会员登陆 & 注册

GPT,GPT-2,GPT-3 论文精读【论文精读】

2022-03-09 14:58 作者:小清舍  | 我要投稿

GPT-3强大,多应用

发展路径

GPT-3模型更复杂,要求更高,很难复现,因此引用较少,想往强人工智能走,解决更大问题

transformer解决机器翻译,一个序列到另外一个序列

Bert想把计算机视觉成熟的先训练一个预训练的模型然后再做微调出子任务的结果,然后搬到NLP上做好,提升技术的效果

在同样模型大小,比如是一个亿级别模型大小时候

Bert的性能要好于GPT

所以未来文章更愿意用bert文章,因为更容易找到足够的机器把模型跑起来

GPT文章(Improving Language Understanding by Generative Pre-Training)

摘要

NLP领域没有像ImageNet那样那么多标好的数据,因此没有足够多的数据去训练一个比较大的模型

也是先训练好预训练模型再做微调

但使用的是没有标号的文本,因此走了一大步,然后在GPT系列后面的文章做Zero Shot

导言


怎样利用好无监督文本

提出半监督方法


基于transformer模型架构,发表在transformer出来一年之后,和RNN模型相比transformer在迁移学习的时候学习到的特征更加稳健一些,可能是因为其里面有更加结构化的记忆使得能够处理更长的文本信息从而能够抽取出更好的句子层面和段落层面的语义信息

GPT在做迁移的是后用的是一个任务相关的输入的一个表示

相关工作

Framework


选用·transformer解码器

微调标号

给你一个序列预测这个序列的下一个词

给你完整的序列预测序列对应的标号两个一起训练效果是最佳的


NLP应用分类

分类

实验

GPT2

做了一个新数据集,使用zero-shot,子任务上不提供相关样本,直接使用预训练模型

GPT3

63页

自回归模型,有1750亿个可学习的参数,不做梯度更新或微调


小样本、零样本


GPT3模型偏扁

使用相对比较大的批量大小,计算性能更好,每台机器的并行度更高,通讯量变低,降低批量里的噪音分布式比较好

小的模型批量大小更容易过拟合一些

模型越来越大的时候过拟合没有那么的严重,搜索范围更广,可能存在一个比较简单的模型架构,SDG可以帮助找到那个模型,使泛化精度更好一些

模型批量大小增大学习率下降






影响


能耗

暴力出奇迹

GPT,GPT-2,GPT-3 论文精读【论文精读】的评论 (共 条)

分享到微博请遵守国家法律