GPT后下一个AI焦点:不仅告诉你“如何做”,更会帮你做的Agent智能体落地
如今,中国的大模型创业者已经集结在十字路口。他们之中既有研究自然语言理解、计算机视觉、机器人等领域将近40年的科学家,也有已经功成名就的前创业者,还有刚刚博士毕业的年轻人。创业者们在各个层面展开竞争。

大模型之战的下半场或许已拉开序幕,而AI Agent成为了舞台上科技巨头们争抢的焦点。8月16日,国内AI准独角兽实在智能正式推出了基于大模型的TARS-RPA-Agent产品,“你说,PC做”的数字助理时代来临。
什么是Agent智能体?智能体可以描述物理实体,比如人类、蚂蚁和蜜蜂,也可以描述虚拟实体,比如程序模块和AI系统。在大模型语境下,可以理解成能自主理解、规划、执行复杂任务的系统。而AI Agent并非是ChatGPT的升级版,把它视作人类的“数字助理”更为合适。它不仅能 “听得懂,想明白”,更可以“看得见,动起来”。
实在智能自从进入超自动化赛道以来,秉持AI深度融合RPA的理念,持续迭代更新自身产品矩阵。不仅将RPA从“拖拉拽”的“专家模式”更新至“点选用的IPA小白模式,更是在此基础上,融入自研行业TARS垂直大模型,将RPA使用门槛进一步降低,直接进入到“所说即所得,你说PC做”的“傻瓜模式”,即震撼推出国内第一个基于大模型的TARS-RPA-Agent产品。
低使用门槛到底低在哪里?
例如,如果你问TARS-RPA-Agent“我要买一台笔记本电脑,帮我推荐下”,TARS-RPA-Agent基于计算机视觉大模型的“智能屏幕语义理解”技术(ISSUT)“秒懂”屏幕画面,第一时间完成自动解析,并且将其拆解成“登录购物网站,查询笔记本电脑品牌、配置、价格等信息,完成产品推荐”等多个步骤并加以自动实现。
在这个过程中,TARS-RPA-Agent也存在避免理解偏差或者操作失误的反馈机制,以及结合上下文扩展和向量检索等技术下的长时记忆能力,以便后续分析和优化。
总结来说,TARS-RPA-Agent的核心工作流程包括:自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验,通过文本指令或对话聊天的方式直接生成数字员工,操作各种电脑软件自主完成工作任务。
因此,大家最近都不卷大模型了,开始卷Agent了。小编曾在《科幻世界》等杂志看到过很多类似“数字助理、机器人小秘书”的情节描述,包括《星际穿越》电影中的“塔斯”机器人,都可以精准理解人类复杂意图并准确无误执行。随着AGI这座大厦越筑越高,随着第一个大模型Agent的正式诞生,可以预料到:未来的AGI是一座非常雄伟的大厦,而这座大厦底座的砖头绝对不是一个人铺出来的。