2023年ChatGPT/AI多模态计算集群方案及GPU计算卡选型
https://xasun.com/article/110/2508.html
ChatGPT出色的表现,带动了人工智能的应用加速,人工智能大模型、多模态机器学习,多模态大模型+物联网等各个行业的专业应用,算力不够是最大的不足,市场上A100/A800/H100/H800的GPU卡的缺货、涨价等,成本上升,不得不考虑GPU替代型号的、性能接近A100/H100的方案
(一)GPU计算卡选型
下面是目前市场上可选GPU卡之间,基于深度学习训练与推理的关键技术指标对比

从上述表里看,RTX6000 Ada 48GB与A100 80GB对比

RTX6000Ada(48GB)与RTX4090(24GB)对比,前者显存是48GB,作为自然语言处理,显存越大越合适,
因此 综上说述,基于自然语言处理应用,无论是做训练还是推理,RTX6000Ada是一款非常合适的A100备用型号
(二)GPU AI集群系统相关产品介绍
下面是西安坤隆计算机科技有限公司提供的基于ChatGPT科研型AI集群配置方案

(1)GPU计算服务器(计算节点)

相关机型:UltraLAB GX658
技术特点:
GPU 配备最高8块nvidia RTX/Tesla系列GPU计算卡,
CPU 采用intel第3代Xeon可扩展处理器,支持PCIe 4.0 x16接口
网口配备100G IB网口,
硬盘采用SSD,
保证硬件配置计算更强、io带宽更高、整机性能全方位优化,保证多用户多任务神经元完美计算能力。
(2)存储服务器(存储节点)

相关机型:UltraLAB N650C(24盘位)
技术特点:
CPU 采用intel Xeon第3代可扩展处理器,最大80核,可满足60台计算节点同步访问
高速缓存盘:配备M2.SSD确保数据处理的高速读写(读写3G/s以上)及超低io延迟、
配备并行存储:数据备份安全可靠、最大容量到378TB(24盘位,3通道)
网口:配备双100G光口,
整机性能全方位优化 支持远程操作、远程管理,系统管理员和使用者直接在办公室甚至异地进行操作
(3)SLURM作业调度软件

SLURM 是优秀的开源作业调度系 统,和 Torque PBS 相比,SLURM 集成度更高,对 GPU 和 MIC 等加速设备支持更好
Slurm是适应不同计算规模Linux集群的资源管理和调度软件。它提供高效的资源与作业管理。包括状态监控、资源管理、作业调度和用量记账
支持更多的仿真模拟软件,
支持定制不同的应用软件的集群系统扩展
(三)UltraLAB GPU超算集群硬件配置推荐2023v2
方案1 CX650 GPU超算集群配置推荐
计算节点5个
GPU卡:40块RTX6000Ada,总显存1.92TB,
集群FP32单精度浮点算力:3640Tflops (3.6PTflops)
配置方案

方案2 CX650 GPU超算集群配置推荐
计算节点10个
GPU卡:80块RTX6000Ada,总显存3.84TB,
集群FP32单精度浮点算力:7280Tflops (7.2PTflops)
配置方案

方案3 CX650 GPU超算集群配置推荐
计算节点30个
GPU卡:240块RTX6000Ada,总显存11.5TB,
集群FP32单精度浮点算力:21840Tflops (21.8PTflops)
配置方案

GPU超算集群应用领域
人工智能训练、推理集群计算
分子动力学、蛋白质折叠、
电磁仿真时域求解
数字孪生超高分可视化
技术服务
本文所提供配置也可根据实际情况,进行调整 ,我们技术保证
-整个集群开机即用
-三年质保
-365*7*24小时在线技术支持