欢迎光临散文网 会员登陆 & 注册

【转】高性能计算HPC入门十问

2023-09-11 04:54 作者:ACFUN-AK  | 我要投稿


高性能计算HPC入门十问

高性能计算HPC入门十问


Julian


创作声明:内容包含虚构创作

现象级的ChatGPT,带火了高性能算力需求,在机器学习/深度学习应用域, HPC 应用已成为 AI 应用的代名词,AI 奇点时刻的来临以及其与 HPC 深度融合,让我不得不更新HPC笔记。

1、什么是高性能计算/ HPC

High Performance Computing, HPC是一种技术[i],它使用并行工作的强大处理器集群,处理海量多维数据集(大数据),并以极高的速度解决复杂问题。【个人定义】不用把HPC理解成一个系统或者超级计算机,就理解成并行计算、集群计算以及网格分布式计算技术就好。 HPC 非常适合需要高性能数据分析的各种应用程序,例如高频交易、仿真模拟、计算机辅助设计、机器学习和深度学习等。

2、高性能/HPC到底是指什么

【简单说】一般认为HPC 系统的运行速度通常要比商用台式机、笔记本电脑或服务器系统快一百万倍以上。

当我们谈论高性能计算时,性能一般是指计算系统及时处理大量数据或进行复杂计算的能力。 HPC 系统通常设计用于处理极大的工作负载并高速执行计算,这使非常适合科学研究、金融建模和其他计算密集型任务等应用程序。在衡量 HPC 系统的性能时,通常会考虑几个因素,包括:

  • 处理器性能:指系统中中央处理器(CPU)或图形处理器(GPU)的处理能力。 HPC 系统通常使用多个并行工作的处理器来提高处理能力。

  • 内存性能:这是指系统内存(RAM)的速度和容量。 HPC 系统通常需要大量内存来支持复杂的计算和大型数据集。

  • I/O 性能:这是指数据可以从系统的存储设备输入和输出的速度。 HPC 系统通常需要高速存储设备来支持大型数据集的快速处理。

  • 网络性能:这是指连接 HPC 系统各个组件的网络的速度和容量。 高速网络在 HPC 系统中对于支持多个处理器和存储设备之间的通信至关重要。

小结一下,在 HPC 中性能是一个多方面的概念,涵盖了很多因素,包括处理器、内存、I/O 和网络性能。HPC 系统的目标是优化所有这些因素,为需要执行的特定任务或应用程序提供最高级别的性能。

3、HPC系统和超级计算机有什么关系

HPC(高性能计算)和超级计算机这两个术语经常互换使用,并且没有明确的定义来区分它们。 一般来说,超级计算机被认为是最大、最强大的 HPC 系统类型。在硬件方面,超级计算机通常具有大量计算节点和高速互连,以及 GPU 或 FPGA 等专用处理器。 它们还可能包括用于加速特定类型计算的专用硬件,例如量子计算或人工智能。

超级计算机通常用于需要大量处理能力、内存和存储的科学和技术计算应用程序。 示例包括气候建模、天体物理学模拟和药物发现。总的来说,虽然 HPC 和超级计算之间没有明确的区别,但超级计算机通常被认为是最大和最强大的 HPC 系统类型,用于要求最苛刻的科学和技术计算应用程序。


4、典型的HPC集群规模


2022年12月中国高性能计算学术年会(CCF HPC China 2022)上发布了一份《开放架构HPC技术与生态白皮书》[ii]。里面记录了19个用户ARM架构HPC平台的规模,我摘录几个用户的情况你自己感受一下。

用户平台规模平台软件其他上海交通大学“交我算”校级计算平台“交我算”鲲鹏超算共100个计算节点,节点采用双路华为鲲鹏920处理器(64核),每个计算节点拥有128核处理器和256GB内存,总计12800核,系统的理论双精度峰值性能达133TFLOPS提供18款常用的高性能计算软件开放使用,覆盖了材料科学、生命科学、大气科学和流体力学4大高性能计算应用领域鲲鹏集群的平均利用率约为41.2%,共服务了校内74个课题组,计算作业数量超100万个兰州大学超算中心鲲鹏HPC集群2020年6月投入使用,一共20个节点,每个节点采用两颗华为鲲鹏920处理器,每颗主频2.6GHz,48核心,512GB内存,总核数1960,节点之间为100Gb InfiniBand计算网络目前集群上部署过气象预测模式软件WRF、CESM、NEMO,分子动力学软件GROMACS、LAMMPS、AmberTools、NAMD、CP2k,第一性原理软件Quantum Espresso,生物信息软件BUSCO、HMMER、Bamtools、Trimmomatic、Mmseqs Repeatmasker、Bwa、Griaffe、Gemoma、Samtools、PASA、vg pack等。
中国科学技术大学超级计算中心瀚海20超级计算系统20台华为Taishan 2280V2服务器,每台含有2颗鲲鹏920 CPU (48核,2.6GHz),256GB DDR4 2666MHz内存,采用100GE(支持RoCE)高速互联,共1920颗核心,峰值性能40万亿次/秒。该套系统于2019年底建成。目前在用账户102个,涉及物理学、材料科学、核科学、信息科学、地学等,从2020年至今,共完成作业35万个,累计860万CPU核小时
国家超级计算天津中心天河新一代超级计算机

国家超级计算深圳中心(深圳云计算中心)深圳超算总投资12.3亿元,一期建设用地面积1.2万平方米,总建筑面积4.3万平方米。深圳超算配置有国产曙光6000超级计算机系统,2010年6月世界超算TOP500排名第二,运算速度达每秒1271万亿次近十年来,累计服务三万个以上用户团队,完成各类计算任务逾千万个,完成15亿核小时计算,服务企事业单位和科研院所过万家,拟构建深圳超算二期E级超级计算机
国家超级计算长沙中心中心基于国内新一代超算先进技术,采用可配置柔性体系结构和高速互连等关键技术,部署了“天河”新一代主机系统。计算部件采用国产ARM指令集兼容架构CPU和迈创-3000加速器。系统包含计算处理、服务处理、互连通信、全局存储、监控诊断、基础架构和辅助算力系统等部分。系统64位通用超算精度不低于200P Flops,系统磁盘总容量不少于20PB,点点双向通信带宽不低于400Gbps。

5、HPC的技术核心

标准计算系统主要使用串行计算来解决问题,它将工作负载分成一系列任务,然后在同一处理器上依次执行这些任务。相比之下,HPC 则利用大规模并行计算在多个计算机服务器或处理器上同时运行多个任务。

计算机集群( HPC 集群)由多个联网的高速计算机服务器组成,并有一个集中式调度器来管理并行计算工作负载。 这些计算机被称为节点,使用多核 CPU,也可能包括 GPU,通过高性能组件把HPC 集群中的所有其他计算资源(网络、内存、存储和文件系统)高速、高吞吐量、低延迟的连接和同步起来,并行、高效完成计算任务,实现高性能。

HPC 的核心技术是使用并行计算以大规模并行的方式解决复杂的计算问题,几个在 HPC 系统中实现并行计算的关键技术,如多核处理器、并行编程框架、高速互连、分布式文件系统和加速器等软硬件技术,实现高水平的性能和处理能力。

6、HPC系统软件情况

HPC系统软件包括:

操作系统,通常是Linux/Unix

  • 系统管理,提供集群完整供应、管理和监控等功能

  • 计划程序或工作负载管理,调度器根据优先级、策略和队列来管理作业,以实现最佳的资源利用率。

  • 应用软件开发生态系统

  • 编程软件环境,包括编译器、库、性能库和具有特定调优功能的消息传递并行编程环境等

  • 网络结构软件

  • 存储文件系统

  • 存储基准

  • 远程可视化或远程计算,支持对模拟建模进行交互式或近实时监控,尤其适用于执行 3D 渲染的繁重图形任务。

  • HPC 数据管理, 涉及数据管理全过程,包括数据采集、存储、元数据管理、层次结构、分层、访问、共享、传输、迁移、传输、跟踪、压缩、加密、安全、ETL、保存、治理、备份、冗余和恢复等

  • 生产力工具

  • 融合、超融合和可组合的基础设施

7、HPC应用软件

建模与仿真(M&S),创建和开发设计以测试系统、现象和过程的物理世界中的假设,以验证技术决策。通过图形和计算机编程、统计分析、2D 和 3D 以及更高维度的虚拟或增强现实模型,在现实条件下对设计进行测试。


  • 工程,比如计算流体动力学 (CFD) 仿真模型适用于工程(空气动力学、航空航天分析、超音速、工业设计、传热、发动机和燃烧设计)、汽车设计(隧道)、自然科学(天气模拟和预测)、环境工程(空气污染)、生物工程(细胞、分子、组织、系统模拟)、电影和游戏行业的视觉效果。

  • 生物信息学、医疗保健、制药, 旨在从生物数据库中提取有意义的信息以进行序列或结构分析

  • 零售和商业银行和保险企业,量化高频交易、金融客户个性化 (FCP) 业务、风险管理投资组合模拟和情景测试、实时金融模型风险管理 (MRM)等

  • 量子计算(QC)

  • 人工智能(AI), HPC 应用已成为 AI 应用的代名词,尤其是机器学习和深度学习应用。AI 与 HPC 的融合推动了机器学习 (ML) 和深度学习 (DL) 软件纳入 HPC 软件堆栈。 神经网络算法需大量数据,训练数据集庞大,ChatGPT的火爆一定程度上后续会进一步推动HPC算力需求的提升[iii]。

8、HPC 与云计算

就在十年前,HPC 的高昂成本还令大多数组织对其望而却步,这涉及到拥有或租赁一台超级计算机,或在内部数据中心构建和托管 HPC 集群。而如今,云中的 HPC,也称为 HPC as a Service (HPCaaS),为公司利用HPC 提供了一种更快捷、可扩展且更经济的方式。 HPCaaS 通常包括访问云服务商托管的 HPC 集群和基础架构,配套HPC服务及云上各种服务(如 AI 和数据分析)。

9、HPC 用例[iv]


HPC应用已成为 AI 应用的代名词,尤其是机器学习和深度学习应用;如今大多数的 HPC 系统在创建时,都将这些工作负载纳入了考量范畴。 这些 HPC 应用正在推动以下领域的持续创新:

医疗保健、基因组学和生命科学。 人类基因组测序的首次尝试耗时长达 13 年;而如今,HPC 系统可以在不到一天的时间内完成这项工作。 在医疗保健和生命科学领域,HPC 的其他应用还包括药物发现和设计、癌症快速诊断和分子建模。

金融服务。 除了自动交易和欺诈检测(如上所述),HPC 还支持蒙特卡罗模拟和其他风险分析方法的应用。

政府和国防。 在这一领域,两个日益增长的 HPC 用例是天气预报和气候建模,这两个用例都涉及处理大量的历史气象数据和气候相关数据点每日数百万次的变化。 其他政府和国防应用包括能源研究和情报工作。

能源。 在与政府和国防领域重叠的某些用例中,能源相关 HPC 应用包括地震数据处理、油藏模拟和建模、地理空间分析、风场模拟和地形测绘。


10、HPC展望

HPC与 AI、大数据、数据分析和量子计算的融合加速了基础设施整合,以实现从小规模、中型到EB规模的最佳性能/成本比,并创造出以前没有涉及的新HPC业务市场。

对IT从业者来说,HPC 存储和数据管理需更全面、更深入的研究,以便在数据处理、数据集成、数据保护和安全、数据工作流管理以及本地、公有云和混合环境等方面来进行改进、细化和简化。

计算、存储、应用程序和基础架构的 HPC 性能基准和指标缺乏标准化,这为供应商和从业者提供市场及研究的机会。


以上,都是个人看法,是我基于已知公开信息作出的“有限理性”判断。如有异议,你是对的。如觉有益,请帮助转发或点个“在看”,让更多人看到,更多人同行,我们可以走得更远。

[i] https://www.ibm.com/topics/supercomputing

[ii] https://www.ccf.org.cn/Media_list/TC/2022-12-13/781317.shtml

[iii] https://server.zhiding.cn/server/2023/0208/3147388.shtml

[iv] https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster




发布于 2023-03-27 23:30・IP 属地上海

高性能计算


高性能服务器


高性能



【转】高性能计算HPC入门十问的评论 (共 条)

分享到微博请遵守国家法律