欢迎光临散文网 会员登陆 & 注册

云知声打造大模型,专注于大模型在特定领域的应用

2023-05-16 22:06 作者:bili_25051758883  | 我要投稿

  如今,在AI领域尽是关于大模型打造的消息。从ChatGPT上线后,各大企业都在加紧发力,试图在大模型打造领域分得一杯羹。这些公司纷纷投入大量资源进行技术研发和应用探索,以期在AI技术应用领域占据更大的市场份额。其中,云知声作为AI独角兽企业,专注于大模型在特定领域的应用,并在医疗等领域取得了良好的成绩。未来,随着云知声大模型技术的不断进步和应用场景的不断扩展,还将会在更多领域得到广泛应用。


  云知声大模型切入点:由点及面

  在ChatGPT推出后,云知声已开始训练模型,将分两步推进:先在六七百亿参数提升优质数据规模,再扩大到千亿级参数提升大模型效果。为什么要分两步走?这与技术实现和商业落地相关。

  按照业内的实践,在优质数据规模足够大情况下,模型越大效果越好,但训练成本也越高。从六七百亿参数起步,是因为从业内成果分析看,只有参数规模达到五六百亿以上,模型才可能出现“智能涌现”。这是一种神奇的现象,如同一个小孩子,到了某个年龄突然“开窍”了,发生了从量变到质变的“跳跃”。经过研究,云知声发现,“六七百亿参数的模型,是比较有把握出现涌现效果的,先以这个参数规模,提升优质数据规模和大模型效果,再做千亿以上参数来提高大模型性能。”


  此外,云知声认为,大模型训练成功后,以目前的算力成本,可能需要把大模型参数量通过蒸馏技术压缩10倍才能满足实时性和规模化应用要求,这要视具体应用场景而定。云知声在做BERT模型时,就积累了丰富的经验,通过模型蒸馏提速近百倍,而实际性能损失很小。GPT是一个端到端打通的框架,同时结合了很多学习能力,比如小样本学习,让它有更强的适应能力。同时,OpenAI的CEO Sam Altman透露,他们使用的数据远比外界想象的要多得多,大量工作也围绕在数据方面,为此还引入了新的数学模型。

  云知声以前基于BERT模型,现在需要切换到以GPT为模式的框架。两者本质上都基于Transformer模型,有不同的优缺点和特性。云知声这次并不需要从底层开始干,而是进行模型架构的切换,“会比从头做的变量要少很多,而且有行业应用场景、客户和数据的积累”。

  云知声从全栈能力到MaaS模式升级

  云知声是一支深度思考行业趋势,密切关注行业前沿技术发展的团队,同时也在行业里有了多年积累,已形成全栈能力,给新一轮技术升级奠定了扎实的基础,也为打造以大模型为基础的MaaS(Model as a Service,模型即服务)平台做好准备。

  在最底层的算力层面,2016年开始云知声团队开始建立大规模超算平台Atlas,这是一家人工智能公司的重要壁垒。在算力平台之上是数据中心模型优化(DCML)层。云知声在2016年开始进入医疗行业后,发现根据不同应用场景数据,需要对模型进行高效的针对性优化,本质上是如何根据应用数据对模型进行快速调优,GPT模型的强化学习也是在这层完成的。这一层的构建目标就在于此,其作用是能够提高产品的标准化程度,通过模型而非代码来解决应用场景差异,大幅提升人效比。再之上是模型层。在此前的AI范式下,无论是人机交互,还是各种行业应用,实际上要先做好各单元模型,再把各种单元模型整合起来实现业务目标,现在则要转变为以GPT为核心的大模型来做。

  对于本次大模型应用落地,云知声认为“不是简单的算法升级或模型做大,而是AGI新范式的重构。”具体来说,是从标准AI零部件根据业务需求组装优化,到以大模型为基础的MaaS模式的转变,即业务逻辑由多语言多模态智能交互(MM-CAI)大模型来对接,实现真正自然语言为主的人机交互模式,通过大模型的情景学习(ICL:In Context Learning)能力来快速对接任务,极大提升业务迁移效率,涉及专业领域问题,则通过调用行业大模型或API来精准可靠解决,做好交互自然度和行业专业度的有效结合。

  回顾AI发展,上一次AI浪潮来袭时,最终也是场景玩家率先占据了AI红利。此次大模型打造上,云知声作为一家拥有场景、数据和深厚行业壁垒的公司,在打造大模型上更具优势,有能力率先在行业中实现落地,这是其他玩家所不能及的先发优势。



云知声打造大模型,专注于大模型在特定领域的应用的评论 (共 条)

分享到微博请遵守国家法律