欢迎光临散文网 会员登陆 & 注册

AI Agent:大模型改变世界的“钥匙”

2023-09-01 15:57 作者:实在RPA_IPA  | 我要投稿

当前大模型的本质是大语言模型(Large Language Model, LLM)。相较于传统的自然语言处理模型,LLM通过无监督训练,从大量文本数据中学习自然语言的模式和结构,在一定程度上能够更加准确地模拟人类的语言理解和生成过程,还展现出一定的逻辑思维和推理能力。


但是,LLM远远不足以处理复杂的现实问题,如基于天气、人流量等数据完成旅游线路的规划、基于实时更新的市场数据完成交易策略的模拟甚至构建一个全新的交易策略等。


2023年3、4月,随着AutoGPT、AgentGPT与BabyAGI等项目的爆火,以LLM作为核心的AI Agent成为了解决上述问题最有前景的方向。虽然初期的AI Agent项目功能并不完善,但它们确实代表了迈向更复杂的人工智能的早期趋势。


AI Agent与单纯的LLM不同:大语言模型如ChatGPT的使用基本为人机问答的形式,人类在文本框内输入问题,大语言模型做出回答;AI Agent则更进一步,不仅可以告诉人类如何做,更可以在现实中帮人做,是一个能自主理解、规划、执行复杂任务的系统。于是,能够自主执行、独立运作的AI Agent开始被认为是“变革社会的生产力工具”,更有人将其视为“通往通用人工智能(AGI)时代的开始”


AI Agent具体是如何工作的?实在智能的TARS-RPA-Agent展现出了强大的功能特点。实在智能在业界首发基于大模型的Agent产品,即TARS-RPA-Agent,就是一个基于“TARS+ISSUT”双模引擎,有“大脑”,更有“眼睛和手脚”的超自动化智能体。自研垂直领域TARS塔斯大模型是AI Agent的大脑,并辅以CV大模型(ISSUT)以及RPA等前沿技术的规划、记忆与工具使用,实现”所说即所得“,动动嘴就能实现任务的执行。

可以看到,和TARS-RPA-Agent的交互方式也是一种类似于聊天框的方式。例如, 在日常办公里,日报、报表、文档的发送、会议室的预订等“基本操作”,用户的“一声令下”,塔斯小助手就在与你在同一时间同频开展工作,从按先后顺序工作到高效并行工作。


当然这背后,有着层层难卡。首先是它要理解你的意图,其次是要帮你准确执行。对于基于浏览器的软件(B/S架构)理解层面还相对简单,可以采用解析网页源码等方案。但对于一些PC软件、基于Windows和信创操作系统的千万种客户端软件(C/S架构)而言,并不存在应对无限多种可能场景的无限多种“标准接口”(如请假等)。因此,只能选择RPA的方式,模拟人类操作执行。


紧接着,又会遇到如何对软件界面精准识别的难题,“智能屏幕语义理解”技术(ISSUT)就为TARS-RPA-Agent装上了感知世界的眼睛,能够感知环境,秒懂屏幕,做出精准操作。


如果未来更多类似于实在TARS-RPA-Agent一样的Agent产品大幅落地,则AI Agent将成为全球数字革命的转折点,使“AI泡沫的传言”化为乌有,并打开一扇崭新的科技世界之门。


AI Agent:大模型改变世界的“钥匙”的评论 (共 条)

分享到微博请遵守国家法律