软件与服务行业报告:深度解析训练及推理AI芯片需求及壁垒
报告出品方:长江证券
以下为报告原文节选
------
天下有变,AI 芯片应运而生
ChatGPT 惊艳问世,引发全球关注,AI 大模式时代来临。2022 年 11 月 30 日,OpenAI发布聊天机器人程序 ChatGPT(Chat Generative Pre-trained Transformer)。该程序一经上线,用户数量 5 天突破 100 万人,月活数量 2 个月内突破 1 亿,成为史上用户增长速度最快的消费级应用程序,引发市场对人工智能的强烈关注。人工智能的发展有三大要素:算法、算力和数据。在由 ChatGPT 引发的本轮人工智能浪潮中,AI 对于算力的要求不断快速提升。
中央处理器(Central Processing Unit,简称 CPU)作为传统的计算机信息处理、程序运行的最终执行单元,可以处理 AI 相关任务,但由于其内部存在大量与 AI 无关的运行逻辑,处理 AI 任务的效率无法最大化。因而,具有海量并行计算能力的 AI 芯片,或者叫 AI 加速器,便应运而生,专门用于加速 AI 应用中的需要大量计算的任务。
场景有别,需求不同
大模型的算力需求主要来自于两个环节:训练(training)和推理(inference)。推理是指通过大数据训练出一个复杂的大模型,通过大量数据的训练确定网络中权重和偏置的值,使其能够适应特定的功能。推理是指利用训练好的大模型,使用新数据推理出各种结论。两者对 AI 芯片需求不同,因而可以根据用途,将 AI 芯片分为训练芯片和推理芯片。
➢ 训练芯片:用于通过大数据训练构建模型,需要极高的计算性能、较高的计算精度,并可以同时处理海量的数据,且具有一定的通用性,可处理不同的任务。
➢ 推理芯片:用于借助现有模型进行推算得到正确结论,对计算性能要求相对较低,更注重综合性能,如单位能耗算力、时延、成本等。
同时,AI 芯片又可以部署在云端、边缘端或者终端,根据部署的位置,又可以分为:云AI 芯片、边缘 AI 芯片和端 AI 芯片:
➢ 云端:在计算机领域中一般指集中在大规模数据中心进行远程处理。该处理方案称为云端处理,处理场所为云端。
➢ 边缘端:在靠近数据源头的一侧,通过网关进行数据汇集,并通过计算机系统就近提供服务,由于不需要传输到云端,其可以满足行业在实时业务、智能应用、隐私保护等方面的基本需求;其位置往往介于终端和云端之间。
➢ 终端:相对于云端,一般指个人可直接接触或使用、不需要远程访问的设备,或者直接和数据或传感器一体的设备,如手机、智能音箱、智能手表等。
由于大模型预训练阶段需处理庞大的数据量和巨大的算力,单一芯片无法满足训练需求,需在云端采用大规模集群进行训练,所以训练需求由云端训练 AI 芯片完成。与此同时,大模型的推理也需要大量的算力,而随着大模型提供越来越多的服务(如图像识别、在线问答、语音识别等)以及越来越多的用户接入,云端推理服务对 AI 芯片的需求也再不断提升。此外,相较于科研、重型产业能够通过大模型、高密度人工智能计算满足需求的场景,便捷、低时延的人工智能应用场景愈发普遍,如自动驾驶、智慧安防、移动互联网等,而边缘侧及终端推理芯片可以独立完成数据收集、环节感知、人机交互及部分推理决策控制任务,进而满足了该类场景需求。
核心指标,追踪需求
作为本轮技术革新的iPhone时刻,ChatGPT的发布标志着新一轮AI技术革新的开始,伴随而来的是新一轮下游需求的爆发,尤其是算力需求。中国新一代人工智能发展战略研究院执行院长龚克认为,人工智能有 4 个要素:算法、算力、数据、应用场景,其中算法、算力、数据是支撑人工智能产业发展的核心要素。人工智能的发展不仅需要算法层面的创新,推动机器的学习理解能力,同时也需要加强以算力为核心的基础能力建设,并辅以大数据支撑学习大量的知识和经验。在大模型浪潮中,我们可以从算法、数据、应用场景这几个维度追踪算力需求的变化。
在本轮技术突破中,边际变化最大的是模型参数。OpenAI 团队发布的论文《Scaling Laws for Neural Language Models》(自然语言模型的伸缩法则)中提出了大模型遵循“伸缩法则”(scaling laws),并证明当参数规模增加、数据集规模增加并延长模型训练时间,大模型的性能就会提升,并且如不受其他两个因素制约时,大模型性能与每个单独的因素都呈现幂律关系。因而为了提升模型性能,需要在增加参数规模的同时,延长模型训练时间,因此,参数规模是一个重要的追踪指标。
《Scaling Laws for Neural Language Models》中同样指出,每个 token 的训练成本通常约为 6N,其中 N 是大模型的参数数量,而每个 token 的推理成本通常约为 2N。训练成本即算力需求和 token 数呈正相关关系,因而数据量,包括训练数据量和推理数据量都是算力需求的重要指标。
2023 年 2 月 1 日,OpenAI 针对美国用户发布 ChatGPT Plus 订阅计划,每月收费 20美元,订阅者可实现:(1)高峰时刻使用;(2)更快的服务响应;(3)优先获得新功能和改进。2023 年 2 月 8 日微软推出了由 ChatGPT 提供技术支持的高级 Teams 产品,可以自动帮用户生成会议记录,推荐任务,或者创建会议模板。微软表示,这项高级服务将在 6 月份每月收费 7 美元,然后在 7 月份增加到 10 美元。未来微软还准备将 OpenAI的技术引入 Word、PowerPoint 和 Outlook,以及将聊天机器人 ChatGPT 加入必应。
而随着 ChatGPT 应用的逐步增多,所需的算力同样会不断提升。同理,随着应用场景不断拓展,大模型应用的不端增多,算力需求也将不断提升。所以,模型数量或者说应用规模,同样是一个核心指标,用以观察应用场景对算力的影响。
因而我们可以总结,参数规模(算法)、数据量(数据)、模型数量(应用场景)将是三个我们可以用于观察算力变化的核心指标。
阶段不同,训练推理需求不一
在计算机行业中,新技术往往需要经历技术突破、工程落地、商业化应用三个阶段。在不同阶段,催生的需求也不同。
技术突破,训练优先
在技术革命的初期,仍处于技术探索阶段。各家巨头公司纷纷开始布局,并投入算力资源训练大模型,因此在这阶段,算力需求主要来自于模型训练。
面临问题,训练芯片要求繁多
由于各家大模型的结构、算法、规模都有所差异,这对训练芯片的通用性提出了要求。
现有的 AI 芯片技术路线中,只有 GPU 满足了开发者们的需求。这其中,CUDA 是相当重要的一环。CUDA(Compute Unified Device Architecture),是 2006 年英伟达为了解决 GPU 编程的复杂度问题推出的通用并行计算平台。一方面,CUDA 是硬件平台,用于通用并行计算。另一方面,CUDA 提供了包括设备驱动、SDK、第三方工具和软件库等在内的一系列软件栈,这极大程度的降低了开发者的开发门槛以及开发成本。使得开发者们能快速的开始大模型的定制化开发,并利用 GPU 训练。这是其他 AI 芯片目前难以做到的。丰富的产业生态是 GPU 的核心竞争力之一。
同时,由于大模型的技术特点,模型参数量与训练数据量非常庞大,已经不是单 AI 芯片可以完成的,需要通过 AI 芯片集群进行训练,这对 AI 芯片集群的存储及互联带宽等性能提出了要求。训练大模型的内存需求,通常是参数数量的几倍。因为训练需要存储中间激活,通常需要参数数量 3-4 倍的内存。大模型的参数数量(红色)呈现出 2 年 240倍的超指数增长,而单个 GPU 内存(绿色)仅以每 2 年 2 倍的速度扩大。因而,往往需要部署大规模显存集群支持大模型的训练,这对显存带宽便提出了需求,需要使用High Bandwidth Memory(高带宽内存)。HBM 显存是一种适用于高性能和 AI 训练计算的新型内存芯片,通过硅通孔技术进行芯片堆叠,并与 GPU 位于同一物理封装内,可节省能耗和占用空间。英伟达的 SXM H100 GPU 中分别应用了高性能 HBM3,内存带宽超过 3 TB/s,这在 AI 芯片中处于领先地位。
同时,算力集群对 AI 芯片的可扩展性提出了需求,这需要 AI 芯片满足芯片间高速传输。
总线在计算机系统中是 CPU、内存、输入、输出设备传递信息的公用通道,传统的总线为 PCIe(PCI-Express,peripheral component interconnect express),这是一种高速串行计算机扩展总线和串行接口标准,适用于大多数 AI 芯片,不同的接口性能代表了其芯片互联能力,也代表了其可扩展性。而英伟达提出了 NVLink 技术,该技术可为多GPU 系统配置提供高于以往 1.5 倍的带宽,以及增强的可扩展性。单个 NVIDIA H100Tensor Core GPU 支持多达 18 个 NVLink 连接,总带宽为 900 GB/s,是 PCIe 5.0 带宽的 7 倍。
现阶段,由于技术不成熟以及内存、互联带宽等性能问题,集群算力利用率仍偏低,这拉高了算力成本,而随着技术的进一步成熟,集群算力提升可以降低算力成本,进而促进大模型的进一步发展。
此外,大模型训练是一个庞大的工程,涉及众多的环节,这需要训练芯片是一个成熟稳定的产品,可以在不同环境中稳定的运行。这些问题都可能制约大模型的模型效果,这便提高了对训练芯片的要求。
海量参数,训练算力需求旺盛
参照之前总结的算力需求公式,训练算力需求=模型参数量*训练数据量*模型数量。在现阶段,模型训练语料相对稳定,主要变化的因子来自于模型参数量和模型数量。以 GPT3 175B 为例计算,其训练数据集 tokens 数为 300billion,参数量为 174,600million,其训练所需算力高达 6*1.746e11*3e11=3.1428e23FLOPS。其他大模型随着参数的增大,所需算力也将不断提升。总训练算力也将随着大模型数量的提升而迎来爆发。
产业落地,推理渐多
而伴随着企业 AI 应用逐步成熟,企业将把更多算力从模型训练转移到 AI 推理工作中。
这意味着人工智能模型将逐步进入广泛投产模式,这将对企业的 AI 基础设施规划带来影响,企业需要更好地制定运营支出规划,提升算力利用率。据 IDC 数据,2021 年中国数据中心用于推理的服务器的市场份额占比已经过半,达到 57.6%,预计到 2026 年,用于推理的工作负载将达到 62.2%。
场景细分,芯片定制
不同于训练芯片需要通用性,推理芯片往往和已训练完的大模型高度绑定。ASIC 正是基于 AI 算法进行定制化开发,随着大模型技术的进一步成熟,商业化应用落地后,其性能高、低消耗的特点将在推理端进一步放大,有望在未来的 AI 芯片市场更具竞争力,进而与 GPU 进行竞争,产业格局可能将产生分化。
--- 报告摘录结束 更多内容请阅读报告原文 ---
报告合集专题一览 X 由【报告派】定期整理更新
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)
精选报告来源:报告派
科技 / 电子 / 半导体 /
人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |