ALBERT老师13 NLP-阅读理解
2023-07-10 10:40 作者:bili_81527274639 | 我要投稿
2. ALBERT改进之处
ALBERT和BERT模型采用了相同的结构,主要的改进之处在三个方面:
2.1 Factorized embedding parameterization
很多BERT相关的模型比如RoBERT,XLNET等,将词表emb size的大小和网络中hidden size的大小,设置的是一样的。这样embedding层的网络参数数量为:,为了减小embedding层网络参数ALBERT中将和设置的不一样,通常来说不能设置的太大,而应该将设置的比较大。最终embedding层的参数数量从减小到,当的大小远大于的时候,参数数量减小更加明显。
2.2 Cross-layer parameter sharing
将transformer不同层之间的参数进行共享,常见的比如共享feed forward层参数或者attention层的参数,或者全部参数都共享。ALBERT默认采用的是共享所有的参数。并且论文中实验显示,通过不同层的参数共享模型的稳定性更好。
