ChatGPT之后的下一个Killer:AI Agent智能体
自从今年年初ChatGPT引爆了生成式AI的概念之后,就有大量的企业和投资人宣布要进入AI行业,一场轰轰烈烈的“百模大战”由此展开。然而,在短短半年之后,当初高调下场的大多数企业再也没有了相关声音。
2023年3、4月,随着AutoGPT、AgentGPT与BabyAGI等项目的爆火,以LLM作为核心的AI Agent成为了解决上述问题最有前景的方向。虽然初期的AI Agent项目功能并不完善,但它们确实代表了迈向更复杂的人工智能的早期趋势。

AI Agent与单纯的LLM不同:大语言模型如ChatGPT的使用基本为人机问答的形式,人类在文本框内输入问题,大语言模型做出回答;AI Agent则更进一步,不仅可以告诉人类如何做,更可以在现实中帮人做,是一个能自主理解、规划、执行复杂任务的系统。于是,能够自主执行、独立运作的AI Agent开始被认为是“变革社会的生产力工具”,更有人将其视为“通往通用人工智能(AGI)时代的开始”。
Agent具体是如何工作的?
以实在智能推出的首个基于大模型的Agent产品TARS-RPA-Agent产品为例做个简单概述:通俗来讲,TARS-RPA-Agent就是可以让流程自动化完成自动化流程,即通过文本指令或对话聊天的方式直接生成数字员工,操作PC电脑自主完成工作任务。RPA不再是专业人士的自动化工具,也不再是小白都能上手的产品,而是人人可用、“所说即所得”的“傻瓜模式”。

在实际场景中,TARS-RPA-Agent支持将表述简单但含义复杂的指令,自主拆解和细化,之后自动生成可控的复杂流程。例如,如果你问TARS-RPA-Agent“我要买一台笔记本电脑,帮我推荐下”,TARS-RPA-Agent基于计算机视觉大模型的“智能屏幕语义理解”技术(ISSUT)“秒懂”屏幕画面,第一时间完成自动解析,并且将其拆解成“登录购物网站,查询笔记本电脑品牌、配置、价格等信息,完成产品推荐”等多个步骤并加以自动实现。在这个过程中,TARS-RPA-Agent也存在避免理解偏差或者操作失误的反馈机制,以及结合上下文扩展和向量检索等技术下的长时记忆能力,以便后续分析和优化。
在这其中,不仅展现了TARS-RPA-Agent基于“智能屏幕语义理解”技术(ISSUT)感知环境、理解屏幕的能力,更是包含了保证每一步操作正确性的执行反馈机制,环环相扣。此外,为了后续分析和优化,不在同一个坑里摔倒,它还有着长时记忆的能力,持续提升人机协同效率。
无论是从企业层面的商业考量看,还是从社会层面的总体价值看,将更多资源投入AI智能体而非通用大模型都是更为前瞻性的。因此,随着更多的资源从大模型转向AI智能体,整个AI行业将有望从现在的泡沫性繁荣走向更为稳健的成长。
总而言之,无论是对于AI行业,还是对于整体的经济发展而言,Agent智能体都能带来很多巨大的机会。AIGC驱动下,《星际穿越》里的机器人TARS塔斯也走进了现实,它能够进行各种高度拟人化的行动,AI数字助理时代即将来临。