IDEA研究院沈向洋:在GPT尚未解决的问题中,寻找大模型新机遇
"懂语言者得天下。"
本文为IPO早知道原创
作者|苏打
11月22日,AI与数字经济领域一年一度的科创盛会,2023 IDEA大会在深圳举行。IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,发布IDEA研究院的重磅研产结晶与市场化成果;在大咖云集的论坛环节,多位领军科学家、企业家、创业者同台论道,碰撞“学研产投”灵感。
现场,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋从技术创新、技术创业、技术驱动新产业三个角度,介绍了IDEA研究院在AI新篇章下,对科创的实践与思考。
会上,沈向洋还发布《低空经济发展白皮书——深圳方案》,吹响IDEA勇闯低空无人区的号角。
以下为沈向洋演讲实录(有删节):
很多从国外回来的人都跟我讲,深圳是最像美国硅谷的地方,充满着创新创业的热情。而这里也是IDEA诞生的地方。我们发展了三年,到今天大概有450人这样一个规模,也有个研究中心,做出了很多数字经济和人工智能方面的业绩。
IDEA研究院这些年轻人们的愿景,是希望通过这一次的努力创新,创造伟大的企业来推动数字经济的发展。Transformer架构的开山之作《Attention is All You Need》,八名作者如今全部在创业。很多我的前同事也找到我说,Harry,我想创业。
所以,IDEA研究院一直致力于创造一个架构,让科学家头脑、企业家素质、创业者精神能够自由碰撞,严谨产出。成立刚满三年,IDEA研究院也带来一批已经或正在走向大市场的优秀创业项目。
很多人相信,科学的发展是和文艺复兴连在一起的,但我认为过去100年最了不起的技术,是计算的技术。人工智能发展到今天,对人类一个最重要的影响是的生产力。如今,人工智能的进步突飞猛进,在语音识别等领域已基本接近人类智能。但技术的进步并非突然发生,而是一个长期的过程。我们作为一个科研机构,也具备这样的耐心。
今天做科研,究竟要做什么?GPT4代表的大模型水平已经是全球领先,我们就问自己几个问题,还有什么机会?到底还能做什么?这个过程中,我们总结出一些不一样的技术路线。
反向思考,先将视觉能力做到极致
实际上,做科研是在大家都看到的问题里,找到大家都找不到的方法。例如,GPT-4的能力已经非常强大,而我们找到其中的一个机会,多模态仍然是一个远远没有解决的问题。
多模态中,除文本以外,首先需要挖掘的是图像和计算机视觉。目前,GPT-4代表着几乎全球最先进的多模态技术,它可以精准描述一碗麻婆豆腐,也可以通过分析,计算出一桌啤酒每个人share的价格。但它仍旧缺乏一些东西,比如物体检测和定义的功能。而这些,恰恰是我们的机会所在。
我们想走一条不一样的技术路线——我们认为,物体级别的理解(object-level understanding),检测、分割、识别,是连接语言和视觉这两种最重要的模态的基石。比如一张办公室图片中,我们可以通过检测,单独分离出一个凳子,然后将其替换成一把新的凳子。这项技术的应用场景非常广阔,比如应用到汽车检测中,可以精准锁定车前灯、车后灯、挡风玻璃等,类似这样的小问题,此前的检测是非常困难的。
其中一个重要的概念,是今天想跟大家介绍的视觉提示。我们今天也会同步发布这一T-Rex模型,T-Rex是一个开箱即用的模型,无需重新训练或微调,即可检测模型在训练阶段从未见过的物体。目前上线的是PC版,手机版也会很快推出。视觉提示可以作为语言描述补充,比如我们希望提炼出一只苹果中的红色部分,利用检测技术的实现效果会比语言描述更自然、更准确。
这又引申出另一个问题,数据打包还有没有机会?
给不同的产品配备不同的模型是不现实的,而且还要面临问题碎片化的挑战,所以我们呼唤一个通用视觉大模型的出现。目前以GPT为代表的主流路线,是通过语言能力增强视觉能力,但我们想做不太一样的事情——反过来想,是不是应该先把视觉能力做到极致?当然这件事非常难,但我们充满信心,也下定决心下场去做改变视觉的大问题。
解决大模型的“一本正经胡说八道”
目前的大模型由于整体采用数据驱动,基本上可以把它想象成是一个统计的工具。这就导致其中出现的一个最大问题:如何证明。目前的大模型还是不擅长深度推理,看似自信的分析实际却不可溯源。而且,大模型仍旧无法实现实时更新。
针对“大模型一本正经胡说八道”这个问题,IDEA研究院几个团队综合研究给出的一条思路,是令大模型和有结构的知识之间形成互补。我们做了一些非常好的工作,即将大模型的优势和知识图谱的优势相融合来进行深度推理。
按照我们研究院郭健团队研发的“思维图谱”,你可以简单把它想成一个小的机器人智能体,在知识图谱庞大的海洋里搜索,排除掉最不可能的一些节点,完成一条长的推理路径。
我们希望大模型的推理是思考是有深度的,不光是劣根数据劣根的图表,更重要的是这些数据背后的逻辑,这个时候背后需要一个庞大的知识图谱。但光有图谱的推理也是不够的,因为图谱的推理最终要给人提出好的建议,所以我们通过技术,令其能够进行精准定点的触达,形成一个分析报告。
未来这一技术的落地领域将非常广泛,包括政务、教育、法律、咨询等,均可实现新的改变。
同时,为解决知识可追溯的问题,IDEA研究院团队通过形成多层的闭环,在知识内循环的基础上,再通过人的交互形成一个外层循环,从而不断对问答进行修正,让大模型越来越聪明。
懂语言者得天下
过去十几年,我一直鼓励大家的一个科研方向是语言,懂语言者得天下。而且编程语言是整个计算机大纲里面非常重要的一个技术。实际上,我们国家在编程语言整个方向的话非常不够,中国人编写自己的编程语言,历史上来看并不多。
真正最受欢迎的通用语言,肯定是在每一个历史时代下,比如大型机时代、PC机时代。现在大家慢慢看到,今天最了不起的方案就是做智能云和边缘智能。
所以现在的语言,基本上是一个人和机器交互的语言,未来实际上会变成人和AI的交互,当然也可以把机器放在里面。其中的新机会,是可以针对这些变化开发一些新语言的东西,来链接自然语言到最后机器码实现的过程。
IDEA已经有两个语言类项目,一个是洪波带领、由中国团队开发的编程语言MoonBit月兔,于今年8月在Hacker News(由Y Combinator创办的知名科创社区)登上头版头条;另一个是区块链并行智能合约语言GCL。GCL旨在打造区块链系统上的最优解决方案。不同于传统的“数据跟着代码跑”的方案,GCL设计了“代码执行跟着数据跑”的编程模型,以减少因数据传递造成的麻烦。
像微软也一直在推动低代码,最低的低代码语言实际上就是今天大模型,大模型来了以后,对整个行业方方面面的冲击都是巨大的。我是在去年下半年的时候认识到这个问题后,觉得未来和以前真的会不一样,很多知识你都不需要背,最重要的事情是问问题。
再给大家总结一下我最喜欢的这句话,懂语言者得天下。实际上我开始推动这件事情的时候,最近这两年的大语言模型基本还没有发生,用我自己的理解就是,人类的秩序最后实际上都是嵌入(embed)的一个原理。