欢迎光临散文网 会员登陆 & 注册

上下文长度256k,无限上下文版本LongLLaMA

2023-08-06 23:57 作者:層林尽染  | 我要投稿

大概扫了一眼论文,个人初步理解是,增加外部的记忆库(memory),来达到记忆上文的目的,这样可以在注意力矩阵(q-k矩阵)不明显增大的情况下联系很久之前的上文。


具体来说,把长文本分成很多小段落,模型一次只读取一部分小段落,然后使用kNN在记忆库中的上文里面查找来检索相关的键值对,然后将它们与局部上下文结合起来进行注意力计算。


这样既可以避免冗余,也可以随时查找到和当前局部小段落最相关的内容,如此可以关注到和本小段落相关的部分,达到小模型宽度也能读长文本的目的。


形象打个比方就是:模型可以一目十行,但是一目也只能十行,于是只让模型看九行,然后把上文一些和这九行相关的关键词高亮表示,算作一行,让模型看这样的“高亮上文关键词+本段落九行内容”,从而达成在资源有限的情况下联系长上文的目的。


不过,虽然论文里通过这个办法把上下文增加至256k,但是这并不是极限,据论文5.2节理想化测试,可以一直到16M都可以记住上文信息。但是实际中有很多noise,最终选择了256k作为结论。但并不是没有代价,模型的精确度降为正常模型的73%,而且看起来如果再继续增加会降更多。


总的来说,这篇文章还是比较有意思的,因为可以用来改造任何已有的模型,只需要加一个上文记忆数据库,就可以拓展模型的能力了。

上下文长度256k,无限上下文版本LongLLaMA的评论 (共 条)

分享到微博请遵守国家法律