LLM Tools业界动态调研

2023-07-04 16:56 作者:柚子陈酱 0人读过 | 我要投稿

1.ToolQA，一个开源数据集，用于评估工具增强的LLM效果

https://github.com/night-chen/ToolQA

提供了数据集、数据生成代码以及数据集上基线的实现。

数据格式：

启发：可以参考这个数据集建立自己的中文数据集

2.LLM Ranking：LLM-Blender，将question和2个不同LLM输出的结果作为输入进行rank，还可以将不同模型的生成结果进行融合

https://github.com/yuchenlin/LLM-Blender

启发：可以探索一下用这个对大模型做离线效果评估的可行性。目前存在的问题是

开源模型对中文的评估效果不太好
没有一个可用的高质量中文评测数据集

3.AutoGPT的改进：ReWOO，解决进行复杂多步任务时，现有的thought-action-observation循环的冗余和重复执行问题

https://github.com/billxbf/ReWOO

将LLM的推理能力和工具执行解耦，让LLM在第一步先做好执行计划（Planner），识别出任务中的子任务和他们的依赖关系。子任务中包括工具执行和LLM调用。其中，Planner是用GPT-4模型实现，也可以训练出一个优化的模型专门用于Planner。

启发：未来做复杂任务时可以参考

4.Transformer LLM在组合任务方面的局限性

https://arxiv.org/abs/2305.18654

论文结论：随着任务复杂性的增加，Transformers的性能会迅速恶化。Transformer的表现主要是由模式匹配和子图匹配驱动的，而不是对底层思维的彻底理解。所以，Transformer LLM会很难完成越来越复杂的任务。

文章发现Transformer LLM的预测主要基于浅层次的、死记硬背式的学习。具体来说，Transformer LLM在训练过程中通过学习大量的语料数据，从而在特定任务上表现出色。但是，这种学习方式并不一定能够处理复杂的任务，尤其是需要深层次推理和组合性思考的任务。

文章指出，Transformer LLM的预测是基于对输入数据的逐个词进行编码和解码，而没有考虑到语义和上下文信息的重要性。因此，模型很难在复杂的任务中进行深层次的推理和组合性思考。此外，文章还发现，Transformer LLM在处理组合性任务时存在局限性，因为它们无法将不同的概念和信息组合成一个有意义的整体。

启发：当前LLM的一些局限性，会影响未来，我们想基于LLM+Tools解决复杂组合任务的实现可行性。不过随着时间的推移，大模型也会演进，未来可能会解决这些问题

标签：

LLM Tools业界动态调研

1.ToolQA，一个开源数据集，用于评估工具增强的LLM效果

2.LLM Ranking：LLM-Blender，将question和2个不同LLM输出的结果作为输入进行rank，还可以将不同模型的生成结果进行融合

3.AutoGPT的改进：ReWOO，解决进行复杂多步任务时，现有的thought-action-observation循环的冗余和重复执行问题

4.Transformer LLM在组合任务方面的局限性