有但不止OpenAI的公司下一步都是:Agent智能体
技术创新的步伐总是在震荡中持续向上,机遇也总是诞生于悲观之时和守旧的框架之外。8月,大模型下半场拉开序幕。OpenAI创始成员Andrej Karpathy就在黑客马拉松演讲中表示,相比大模型训练,OpenAI内部目前更关注Agent领域。站在了伟大变革的时代,Agent成为最受重视的方向。
什么是Agent?
在大模型语境下,可以理解成能自主理解、规划、执行复杂任务的系统。以AutoGPT和BabyAGI为代表的技术演示型项目,今年4月短暂地火了一阵,但离真正应用到业务中还有一段距离。但其瞬间爆火确实揭示出:将大模型与电脑操作结合起来,解决脑力劳动端到端的智能化和自动化是人工智能最值得探索的方向。
现在,Agent第二轮爆发正在酝酿中,标志就是新一轮应用与场景结合更紧密了。在科技新锐公司中,也不乏有深耕AI领域的企业开始在Agent发力,推出先锋之作。

Agent,AI应用是新时代的起点。
以实在智能基于自研的TARS垂直大模型推出的行业首个Agent产品——TARS-RPA-Agent产品为例,TARS-RPA-Agent不仅有着强大的意图理解能力,还可以在复杂操作系统及桌面软件环境下精准的电脑操作能力——但并不是类似“播放歌曲、播报天气、网页订票”等可以通过解析网页源代码、或调用API接口方式所实现的简单人机交互。
基于“TARS+ISSUT(智能屏幕语义理解技术)”双模引擎,TARS-RPA-Agent是一个有“大脑”,更有“眼睛和手脚”的超自动化智能体。同时,也是能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验的RPA全新模式。

例如,“我明天要去医院看病,帮我在钉钉上请个假。”
依照理解-执行的操作流程,只能选择通过RPA方式模拟人类的动作,对电脑软件进行操作。但如何在理解意图的基础上,对所要操作的软件界面精准识别?实在智能基于计算机视觉(CV)大模型的“智能屏幕语义理解”技术(ISSUT)为TARS-RPA-Agent装上了感知世界的眼睛,使其可以“秒懂”屏幕画面,第一时间完成自动解析,带来真正基于人类视觉的电脑屏幕和操作对象理解。
TARS-RPA-Agent让大模型不仅能 “听得懂,想明白”,更可以“看得见,动起来”。当然,不论实在智能是创新的推动者还是变革的见证者,它都迈出了这一步,即使Agent不能成为大模型浪潮的佼佼者,至少应当成为其中的弄潮儿。