欢迎光临散文网 会员登陆 & 注册

ALBERT老师13 NLP-阅读理解

2023-07-10 10:40 作者:bili_81527274639  | 我要投稿

2. ALBERT改进之处

ALBERT和BERT模型采用了相同的结构,主要的改进之处在三个方面:

2.1 Factorized embedding parameterization

很多BERT相关的模型比如RoBERT,XLNET等,将词表emb size的大小和网络中hidden size的大小,设置的是一样的。这样embedding层的网络参数数量为:,为了减小embedding层网络参数ALBERT中将和设置的不一样,通常来说不能设置的太大,而应该将设置的比较大。最终embedding层的参数数量从减小到,当的大小远大于的时候,参数数量减小更加明显。

2.2 Cross-layer parameter sharing

将transformer不同层之间的参数进行共享,常见的比如共享feed forward层参数或者attention层的参数,或者全部参数都共享。ALBERT默认采用的是共享所有的参数。并且论文中实验显示,通过不同层的参数共享模型的稳定性更好。


ALBERT老师13 NLP-阅读理解的评论 (共 条)

分享到微博请遵守国家法律