ALBERT老师13 NLP-阅读理解

2023-07-10 10:40 作者:bili_81527274639 0人读过 | 我要投稿

2. ALBERT改进之处

ALBERT和BERT模型采用了相同的结构，主要的改进之处在三个方面：

2.1 Factorized embedding parameterization

很多BERT相关的模型比如RoBERT,XLNET等，将词表emb size的大小和网络中hidden size的大小，设置的是一样的。这样embedding层的网络参数数量为：，为了减小embedding层网络参数ALBERT中将和设置的不一样，通常来说不能设置的太大，而应该将设置的比较大。最终embedding层的参数数量从减小到，当的大小远大于的时候，参数数量减小更加明显。

2.2 Cross-layer parameter sharing

将transformer不同层之间的参数进行共享，常见的比如共享feed forward层参数或者attention层的参数，或者全部参数都共享。ALBERT默认采用的是共享所有的参数。并且论文中实验显示，通过不同层的参数共享模型的稳定性更好。

标签：

ALBERT老师13 NLP-阅读理解

ALBERT老师13 NLP-阅读理解的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

ALBERT老师13 NLP-阅读理解

本文作者的其他文章

ALBERT老师13 NLP-阅读理解的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

ALBERT老师13 NLP-阅读理解的评论 (共条)