下一代尖端AI系统的电源解决方案
简介
人工智能(AI)综合了多种解决问题的方法,例如数学、计算统计、机器学习和预测分析。AI系统通过基于计算机的“神经”网络来模仿人脑学习并解决问题。这种神经网络由并行处理器组成,能够运行复杂的学习任务并执行软件算法。如今的AI还在改革计算架构,以复制模仿人脑的神经网络。尽管在具有传统中央处理器(CPU)的服务器上也可以训练或开发通用模型,但大多数神经网络都需要自定义的内置硬件来进行训练。
图形处理单元(GPU)和张量处理单元(TPU)是用于加速神经网络训练的常见加速器。它们可以处理重复性和密集型计算,但却异常耗电。例如,早期的AI市场主导者英伟达的DGX-1 GPU超级计算机内置8个Tesla P100 GPU,每个GPU算力达到21.2 TeraFLOP,总共需要3200W的系统总功率。最新一代的DGX-2超级计算机则内置16个Tesla V100 GPU,每个GPU算力达2 petaFLOP,所需系统总功率达到10kW。因此,AI市场将迅速增长以满足不断增长的电源需求也就不足为奇了。
电源设计挑战
AI电源系统设计人员面临多方面的挑战。提供千瓦功率是他们的第一个挑战,而且效率绝对至关重要。要知道,这些计算系统是以全功率运行的复杂负载。活跃度下降,功率需求也会随之下降。系统必须在整个电力需求中保持尽可能高的效率。浪费的每一瓦能量都会作为热量消散,并转化为数据中心对散热系统的更高要求,这会增加运营成本以及碳足迹。
空间成本也在不断上升。现代数据中心都包含成百上千个处理单元,因此设备大小非常重要。减小单个单元的尺寸,就可以在与大型解决方案相同的空间中应用更多设备,从而实现更高的处理能力密度。然而,越小的尺寸越要求极大地提高功率密度,并减小散热面积。这使得散热管理成为下一代尖端CPU、GPU和TPU电源设计面临的重大挑战之一。
另外,系统复杂性的增加和设计周期的压缩使设计资源更加紧张。资源大部分被分配给系统关键知识产权的开发,这意味着电源方案相关的电路常常被忽略,直到开发周期的后期。实际上,我们只需很少的时间,并且可能只需很少的电源设计资源就可以解决上述的挑战,得到理想的整体电源解决方案,它将是节省空间的、高效的、可扩展的、灵活的,并且只需要最少的设计工作。
数字控制与模拟控制解决方案
想要阅读全文,请访问MPS官网>>支持>>文章和新闻中心
https://www.monolithicpower.cn/cn/support/industry-information.html