在“听得懂”之后“看得见、动起来”,实在智能首发“你说PC做”的大模型Agent
年初以来,全球发布了数百个大模型,中国发布了80多个大模型,To C类的百花齐放,很多问答类型的大模型问世,还会写诗。在众多大模型中,有这么一家AI公司脱颖而出,被业界尤为看好,那就是:实在智能。
因为实在智能在自然语言处理领域有着经验积累,早在去年12月,实在智能就首创基于计算机视觉大模型的“智能屏幕语义理解”技术(ISSUT),推出行业首发“实在IPA”模式,实现RPA的人人可用。在8月16日的第七次新品发布会上,更是依托自研的TARS垂直大模型+ISSUT(智能屏幕语义理解)机器视觉大模型重构了技术底座,对自身的超自动化产品矩阵升级改造,持续发布创新应用。

其中,实在智能的TARS-RPA-Agent产品作为业界首款计算机视觉与大语言模型结合的智能体产品,预示着“你说,PC做”的数字助理时代来临。这也是实在智能大模型的不同之处:实在智能侧重落地行业,将大模型与RPA紧密结合,大幅降低使用门槛,RPA数字员工将具备自主完成任务的能力,成为每个人的智能数字助理。TARS-RPA-Agent产品作为业界首款将计算机视觉与大语言模型结合的智能体产品,相信会对RPA行业的发展具有里程碑的意义。
用惯了GPT,看多了国产大模型,小编对这个有点不太一样的国内首创TARS-RPA-Agent产品还是很感兴趣的。于是我找到了实在智能内部技术人员了解到:TARS-RPA-Agent——这是一个基于“TARS+ISSUT”双模引擎,有“大脑”,更有“眼睛和手脚”的超自动化智能体,也是RPA的全新模式,而它的关键创新特性主要有以下四点(小编震惊!):
1、很“傻瓜”模式,能够自主拆解任务
“我要买一台笔记本电脑,帮我推荐下”?实在智能在实在IPA“小白模式”的基础上,更进一步进入到了“所说即所得,你说,PC做”的“傻瓜模式”。TARS-RPA-Agent可将表述简单但含义复杂的指令:“登录购物网站,查询笔记本电脑品牌、配置、价格等信息,完成产品推荐”等多个步骤并加以自动实现。无论是在RPA领域,还是在大模型领域,如此低门槛的产品,小编还是第一次见到,不愧称之为在“听得懂”之后“看得见、动起来”。

(TARS大模型自主拆解任务演示)
2、TARS-RPA-Agent就是我们的眼
基于计算机视觉大模型的ISSUT(智能屏幕语义理解技术)使得TARS-RPA-Agent可以“秒懂”屏幕画面,以人类视角感知环境理解屏幕,第一时间完成自动解析,无需人工介入参与。
3、居然具备强大的反馈机制
业内人士的共识,真实场景的意图理解和任务执行是非常复杂的,那么做到超级自动化的同时,保证每一步操作的正确性就显得非常重要,也非常困难。TARS-RPA-Agent做到了。为避免出现理解偏差、操作失误,TARS-RPA-Agent巧妙地设计了“基于强化学习的单步寻优策略和每步执行的反馈”相关机制,将决策-执行过程的正确性提至最高。

(TARS大模型执行并且反馈演示)
4、作为智能体,它本身也具备自主学习的能力
TARS-RPA-Agent也结合上下文扩展、向量检索等技术,配备了长时记忆能力,能够从历史强大的执行动作数据库中“学习经验并吸取教训”,后续优化下一次执行。检索的广度扩大了,记忆的长度也延伸了,不愧是首发Agent(智能体)。
实在智能落地行业,始终秉持“AI赋能商业”初心,不强调写诗,而强调“下到矿井”,成为轻便落地的大模型。其中,与湘财证券共建的财经行业大模型TARS-Finance-7B已经取得了良好成绩。
实在智能第七次发布会上,以TARS+ISSUT大模型双底座为核心,无论是在RPA领域还是大模型领域,都带来了崭新视野。展望未来,实在智能将持续迭代大模型在更多的行业落地,全面推动技术进步与行业发展,借助通用人工智能的机会,全力打造每个人的AI助手,让千行百业的用户真正享受到大模型带来的商业价值。