GPU和液冷等AI基础设施需求继续扩大

随着人工智能的飞速发展,其对算力和基础设施的需求也在指数级增长。长期以来,CPU一直是驱动数据中心运行的主力芯片。但CPU在AI工作负载上表现不佳,这导致Meta(Facebook)等公司在AI领域被竞争对手超越。
直到去年,Meta才开始优先考虑发展生成式AI产品。今年2月,Meta成立了一个生成式AI高级团队,目的是“加速”公司在该领域的工作。随后,Meta开始改造其数据中心以支持GPU。这需要大量的网络容量和液冷系统来管理热量,以致需要“完全重新设计”。
GPU由于在深度学习和神经网络训练方面的出色表现,已成为AI系统的基石。但GPU也意味着更高的功耗和发热,这使其部署与管理难度大幅提高。Meta购买的NVIDIA GPU芯片售价高达1万美元,这也加重了AI基础设施投资的负担。
Meta AI研究团队花了5个月的时间,使用2048个NVIDIA A100 GPU,训练出一个新的语言模型。这证实了GPU在推动AI发展方面的关键作用,但也暴露出GPU供应紧张的困境。全球GPU供应已基本售罄,6-18个月的交货周期,将减缓AI创新者开发新技术和产品的步伐。
与GPU相伴生的是对液冷等散热系统的需求激增。传统的风扇散热已不足以应对GPU的高热发散,这使得液冷等高效散热系统成为AI数据中心不可或缺的一部分。但液冷系统也更加复杂昂贵,这无疑加重了AI基础设施投资的负担。
人工智能对算力和基础设施的需求之巨大,令业内难以在短时间内完全满足。GPU和液冷系统等的供应紧张,将对AI发展产生一定影响与阻力。但随着供应商进一步扩产,以及新技术的推出,这种状况有望得到改善。无论如何,AI带来的数据中心升级,注定会持续驱动这些支撑技术的高速发展与变革。
部分内容来源:https://www.163.com/tech/article/I35FB9QR00097U7R.html