欢迎光临散文网 会员登陆 & 注册

认真聊聊AIGC时代的一个核心问题

2023-05-31 21:51 作者:公子龙龙龙  | 我要投稿

若干年后,人们回想起2023年,也许会把这一年定义为真正意义上的全民 AIGC 元年。这一年,无论国内国外,无论巨头、雄心勃勃的中小公司,大家都在争先恐后的推出各自的 AI 产品,想要成为这轮浪潮过后,仍然留在沙滩上的那波人。

腾讯云关于AIGC的解决方案,已经全部收录在工具指南中,感兴趣的朋友可以参考学习~ 

1.

和以往的小打小闹不同,这次的AI技术普及,面向的是全人类,从语言对话开始,逐步的去改造衣食住行的方方面面。这里的一个特点,就是「」,用户量大、模型参数大、数据量大,想要处理如此多的数据,对背后提供支持的系统要求非常高。

百亿量级的语料如何存储,如何训练模型,训练好的模型怎样能够快速推理,结果如何高效管理,怎样服务于千万、亿级别的用户,每一项都是巨大的挑战。

最近在调研大模型相关的底层技术内容,查阅资料的时候发现腾讯云存储在这方面做出了非常多出色的工作,他们甚至已经给出了一套完成度非常高的AIGC解决方案

2.

AIGC想要真正的面向全民应用,必须要解决训练和推理过程中,繁杂数据的存储、利用问题。

了解数据的同学可能听过一个概念:数据湖(Data Lake)。数据湖是一个集中存储各种结构化和非结构化数据的存储库,其中包括原始数据、批处理数据和实时流数据。

通过将AI算法和模型应用于数据湖中的数据,可以实现数据的分析、挖掘和预测等智能化处理。不同的处理平台可以通过数据湖连接到数据,并共享和流动数据,从而实现数据在多个平台间的灵活应用和协同工作。

我们可以把核心需求分为两部分:

1、训练场景存储诉求:数据湖统一存储;数据在业务间自由流动;高吞吐、低时延。

2、推理场景核心诉求:内容审核;内容管理。


3.

这部分是重头戏,了解了核心诉求之后,我们来看下腾讯云存储给出的AIGC解决方案:

来带着大家仔细走一遍这套流程。

第一步,数据集下载与预处理

AI想要变强,就得像个巨嘴兽一样,对于数据要来者不拒,无论是怎样格式的数据,无论是存放在什么地方的数据,无论是多大的数据,来了都得一口吞下。

腾讯云存储的这套方案就支持多源数据存储、多格式数据存储、海量数据存储,同时,如果输入进来的数据信息价值密度低也不用担心,它能够对数据进行预处理,丢弃脏数据,保留有价值的内容。

具体是怎么做到的呢:

  • 提供全球多地域核心机房,公网带宽为TB级别,提供顺畅的数据下载体验;

  • 通过Flink和Spark等数据分析框架,提供流批一体的低延迟处理能力,满足预处理性能诉求;

  • 基于大数据组件容器化部署能力和云原生对象存储,实现计算资源和存储资源的 弹性扩展;

  • 基于数据湖存储GooseFS跨园区缓存热数据;基于对象存储COS的跨地域复制 能力,将境外数据集近实时传输至国内。

  • 用户可以进一步使用数据万象等能力满足跨境数据合规等要求。


第二步,为数据训练过程加速

对于百亿、千亿级别的数据,如果还是使用传统的训练方法,耗费的时间应该是以年为单位的。面对这一难题,腾讯云存储设计了完整的训练加速方案。

首先通过GooseFS将训练数据加载到GPU内存、本地盘或者可用区全闪存储集群等不同级别的缓存中,缩短IO路径,提升数据访问性能。

相比起从对象存储COS中直接读取,能够降低延迟,提升IOPS和吞吐。将全量数据持久化在对象存储上,提供海量低成本存储。同时通过GooseFS加速数据访问,达到最佳性价比。


一番操作下来,数据湖存储的QPS和带宽的单桶OPS指标可横向扩展至10w级,数据湖存储的QPS和带宽指标可横向扩展至TB级,完全能够满足模型大数据量快速训练的需求。

第三步,为推理过程提供全方位审核

AI推理的结果是要面向成千上万的用户的,在质量这块一定要严格把关。贴心的腾讯云团队早已在这方面下了苦功夫,为应用保驾护航。



从示意图中可以看出,在和用户的交互过程中,无论是用户的输入,还是大模型的输出,都会经过严密的内容审核流程,极大降低了意外情况的发生。

数据万象这套方案接入的成本非常低,在审核过程中应用定制开发的模型,精准度上非常优秀,同时也支持智能调度,能够为应用方节省大量的人力物力成本。

第四步,为推理结果提供完善的管理服务

我们想要打造一款AI应用产品,弄好了模型之后,有一个非常重要的环节,就是如何让用户最便捷的上手使用起来,而腾讯云企业网盘本身就拥有强大的应用生态,将这两者结合起来,能够达到事半功倍的效果。

于是,企业网盘为模型的推理结果,提供了完善的一揽子管理服务。

我们可以很方便的接入它的一体化办公生态,与腾讯会议、腾讯电子签、iDaaS等产品打通;

也可以文件多模态理解,覆盖OCR、以图搜图、标签搜索聚类,实现文件智能管理;

还能够通过文档协同编辑、数据高效分发共享、一键化企业知识库等能力,抓住企业办公场景痛点,提升办公协作效率。


4.

今天的文章内容很硬核,基本上带大家完整的走了一遍AIGC解决方案,建议大家来回嚼几遍,重点关注下里面对于业务痛点,设计了怎样的解决方案,向业内一流的技术团队学习,对我们的技术Sense提升非常有帮助。

可以说,作为面向AIGC应用的解决方案,腾讯云存储做的非常出色,从数据处理、模型训练、推理以及推理结果的管理与应用,一应俱全,想得到想不到的,他们都给做出来了,忍不住点了个赞。

在AI应用风起云涌的当下,基础设施能力的完备性显得尤为重要,在千帆竞技中,能够起到事半功倍、快马加鞭的效果。

文章中提到的腾讯云存储AIGC解决方案,也收录进了新一期《腾讯云工具指南》,堪称是云存储的技术宝典,它详细解读在AIGC场景下,腾讯云存储产品通过提供强力的弹性存储性能、数据湖存储三级加速解决方案,解决了模型训练数据复杂且高要求的痛点,探讨如何在企业级业务场景中实现安全、高效、成本可控的最优解。

对腾讯云存储AIGC解决方案感兴趣的小伙伴,欢迎下载腾讯云工具指南,详情见下方图片或原文链接~ :https://mktsaas.tencent-cloud.com/web/jumpmini.html?scene=384483723203EB1FECC79F038D17B638&platform=1



认真聊聊AIGC时代的一个核心问题的评论 (共 条)

分享到微博请遵守国家法律