LLM Tools业界动态调研
1.ToolQA,一个开源数据集,用于评估工具增强的LLM效果
https://github.com/night-chen/ToolQA
提供了数据集、数据生成代码以及数据集上基线的实现。
数据格式:

启发:可以参考这个数据集建立自己的中文数据集
2.LLM Ranking:LLM-Blender,将question和2个不同LLM输出的结果作为输入进行rank,还可以将不同模型的生成结果进行融合
https://github.com/yuchenlin/LLM-Blender
启发:可以探索一下用这个对大模型做离线效果评估的可行性。目前存在的问题是
开源模型对中文的评估效果不太好
没有一个可用的高质量中文评测数据集
3.AutoGPT的改进:ReWOO,解决进行复杂多步任务时,现有的thought-action-observation循环的冗余和重复执行问题
https://github.com/billxbf/ReWOO
将LLM的推理能力和工具执行解耦,让LLM在第一步先做好执行计划(Planner),识别出任务中的子任务和他们的依赖关系。子任务中包括工具执行和LLM调用。其中,Planner是用GPT-4模型实现,也可以训练出一个优化的模型专门用于Planner。
启发:未来做复杂任务时可以参考
4.Transformer LLM在组合任务方面的局限性
https://arxiv.org/abs/2305.18654
论文结论:随着任务复杂性的增加,Transformers的性能会迅速恶化。Transformer的表现主要是由模式匹配和子图匹配驱动的,而不是对底层思维的彻底理解。所以,Transformer LLM会很难完成越来越复杂的任务。
文章发现Transformer LLM的预测主要基于浅层次的、死记硬背式的学习。具体来说,Transformer LLM在训练过程中通过学习大量的语料数据,从而在特定任务上表现出色。但是,这种学习方式并不一定能够处理复杂的任务,尤其是需要深层次推理和组合性思考的任务。
文章指出,Transformer LLM的预测是基于对输入数据的逐个词进行编码和解码,而没有考虑到语义和上下文信息的重要性。因此,模型很难在复杂的任务中进行深层次的推理和组合性思考。此外,文章还发现,Transformer LLM在处理组合性任务时存在局限性,因为它们无法将不同的概念和信息组合成一个有意义的整体。
启发:当前LLM的一些局限性,会影响未来,我们想基于LLM+Tools解决复杂组合任务的实现可行性。不过随着时间的推移,大模型也会演进,未来可能会解决这些问题