欢迎光临散文网 会员登陆 & 注册

LLM Tools业界动态调研

2023-07-04 16:56 作者:柚子陈酱  | 我要投稿

1.ToolQA,一个开源数据集,用于评估工具增强的LLM效果

https://github.com/night-chen/ToolQA

提供了数据集、数据生成代码以及数据集上基线的实现。

数据格式:



启发:可以参考这个数据集建立自己的中文数据集

2.LLM Ranking:LLM-Blender,将question和2个不同LLM输出的结果作为输入进行rank,还可以将不同模型的生成结果进行融合

https://github.com/yuchenlin/LLM-Blender

启发:可以探索一下用这个对大模型做离线效果评估的可行性。目前存在的问题是

  1. 开源模型对中文的评估效果不太好

  2. 没有一个可用的高质量中文评测数据集

3.AutoGPT的改进:ReWOO,解决进行复杂多步任务时,现有的thought-action-observation循环的冗余和重复执行问题

https://github.com/billxbf/ReWOO

将LLM的推理能力和工具执行解耦,让LLM在第一步先做好执行计划(Planner),识别出任务中的子任务和他们的依赖关系。子任务中包括工具执行和LLM调用。其中,Planner是用GPT-4模型实现,也可以训练出一个优化的模型专门用于Planner。

启发:未来做复杂任务时可以参考

4.Transformer LLM在组合任务方面的局限性

https://arxiv.org/abs/2305.18654

论文结论:随着任务复杂性的增加,Transformers的性能会迅速恶化。Transformer的表现主要是由模式匹配和子图匹配驱动的,而不是对底层思维的彻底理解。所以,Transformer LLM会很难完成越来越复杂的任务。

 

文章发现Transformer LLM的预测主要基于浅层次的、死记硬背式的学习。具体来说,Transformer LLM在训练过程中通过学习大量的语料数据,从而在特定任务上表现出色。但是,这种学习方式并不一定能够处理复杂的任务,尤其是需要深层次推理和组合性思考的任务。

文章指出,Transformer LLM的预测是基于对输入数据的逐个词进行编码和解码,而没有考虑到语义和上下文信息的重要性。因此,模型很难在复杂的任务中进行深层次的推理和组合性思考。此外,文章还发现,Transformer LLM在处理组合性任务时存在局限性,因为它们无法将不同的概念和信息组合成一个有意义的整体。

 

启发:当前LLM的一些局限性,会影响未来,我们想基于LLM+Tools解决复杂组合任务的实现可行性。不过随着时间的推移,大模型也会演进,未来可能会解决这些问题

 


LLM Tools业界动态调研的评论 (共 条)

分享到微博请遵守国家法律