欢迎光临散文网 会员登陆 & 注册

位列三甲!中国获戈登·贝尔奖后,华为存储向世界证明超算硬实力

2021-12-04 15:21 作者:萦梦灬落雨  | 我要投稿

继荣获2021戈登·贝尔奖之后,中国超算再传捷报:根据近日发布的全球高性能计算存储系统排名IO500榜单,Top 3均为中国自研系统,其中华为独占两席。算力、存储和应用开始协同发展,中国超算「造强用弱」的局面正在发生实质性的转变。

 

数据被视为新时代的石油,不同的是,人类有多焦虑有限的石油何时被耗尽,就有多烦恼无限的数据该如何被保存。

 

作为数据处理、分析和应用的基础共性支撑,存储始终是计算机系统的性能瓶颈所在,高性能计算(HPC)领域尤其。

 

中国超算一直因「造强用弱」而饱受非议,这也是为什么近年来国内超算业界对Top 500榜单排名表现得云淡风轻,而对再获戈登·贝尔奖的消息却倍感振奋——尽管困难重重,计算正向着百亿亿次级(E级)稳步迈进,应用也开始跟了上来。

 

但是,关键的存储却少见踪影——直到上个月为止。

 

2021年11月,最新的全球HPC存储系统性能排名IO500榜单在SC21上公布,Top 3都是中国自研系统,而且其中两台都是华为已经大规模商用的系统。

根据最新发布的全球HPC存储系统性能排名IO500榜单,Top 3均为中国自研系统,其中华为独占两席。

 

其中,华为OceanStor Pacific系列存储(Huawei HPDA Lab),以2395.03的总分名列第二。该系统采用NVMe SSD全闪存固态硬盘,基于自研的OceanFS高性能并行文件系统,在10节点上实现了337.75 GB/s(314.56 GiB/s)的带宽和超过1800万 IOPS 的元数据性能。

 

这是什么概念?

 

还记得45TB的GPT-3原始训练数据集吗?

 

不等你泡好一包方便面就已经传完。

 

不鸣则已,一鸣惊人

 

大数据、云存储和人工智能的快速发展,不仅增强了对高性能存储系统的需求,也对I/O支持应用的性能、数据可用性等方面提出了很多新的挑战。

 

为促进领域更好发展,HPC存储专业社区The Virtual Institute of I/O,2017年11月制定并提出了一套全面衡量HPC存储系统的基准测试,也即IO-500,旨在反映HPC存储系统的真实性能,并要求所有测试过程细节包括参数配置全部公开,以便用户了解每个存储系统的优势及缺点。

 

很快,IO-500便得到了全球HPC存储业界的积极响应,成为领域事实上的权威标准。国内超算界的多位专家也向机器之心表达了他们对IO500榜单的重视。

 

IO-500基准测试主要考察两大关键指标——带宽(GiB/s)和元数据性能(k-IOPS)。前者是大型文件持续高速传输的保证,后者对不同类型数据的高效读写十分关键。

 

计算总分采用几何平均数的方式,消除个别极高或极低指标的影响,因此更加均衡的系统能够获得更高的分数。换句话说,IO500榜单总分越高,HPC存储系统的综合性能就越好。

 

为了展现实际应用场景中的性能,IO-500中还有一个「10节点基准测试」,考察在客户端数量不超过10的情况下,被测系统的带宽和元数据性能。值得一提的是,华为OceanStor Pacific系列存储在10节点榜单上也名列第二(Huawei HPDA Lab)。

 

排名第二的华为OceanStor Pacific存储系统IO-500测评具体指标,可以看出各项性能均衡。

 

性能提升的技术根源:

软硬件协同优化,面向下一代高性能数据分析

 

IO500榜单中值得关注的一点是,并没有多少Top 500超级计算机的身影。

 

例如现今世界最快的超级计算机日本的富岳,前几次IO-500测评结果不甚理想,这次干脆没有参加测评。

 

这里面当然有包括超算战略在内的考虑,比如中国这次就没有将新一代神威超算系统提交参与Top 500排名。但IO500与Top 500之间差异,体现出了当前算力与存储的不均衡。

 

原因也不难理解,随着超算与大数据、人工智能的融合,HPC正加速向高性能数据分析(HPDA)转型。HPDA应用的特点是数据量大且经常出现非结构化数据、时效性强、算法复杂,因此其I/O模型与传统HPC负载有很大差异。

 

国防科技大学计算机学院院长、银河系列高性能计算机、天河一号和天河二号的副总设计师卢凯曾在CCF HPC CHINA 2020指出,传统的并行文件系统并不适合最新的存储硬件技术,POSIX提供的强一致性在很多情况下实际上严重影响了存储系统的性能,属于「大材小用」。

OceanStor Pacific系列存储是华为2020年5月发布的产品,专门面向HPDA应用场景,针对HPDA负载「数据密集型」的特点,在硬件和软件方面做了一系列优化。

 

其中配置最高的一款「OceanStor Pacific 9950高密性能型」,官方称「5U 8节点,80盘位NVMe SSD,提供160 BG/s带宽和200万IOPS」,对比这次IO-500基准测试结果,可以说是保守宣传了。

 

就在今年6月,权威测评机构ESG实验室对华为OceanStor Pacific系列存储做了全面的技术测评,实测验证了稳定高性能、多协议融合访问、混合负载访问、超高密设计等指标,并对其性能、成本和可靠性给予了充分的肯定。

 

不要忽视「可靠性」,根据HPC市场分析机构Hyperion Research的调研,企业在采购或选择HPC系统时,通常算力第一、成本第二,近年来存储虽然得到更多关注,但企业往往忽视后期运维,而由于停机造成的损失——哪怕只有几小时——动辄上万美元。

 

保存数据就是保存价值,E级计算需要与之匹配的存储设施

 

目前,华为OceanStor Pacific系列存储已用于科研、油气勘探、自动驾驶、卫星测绘、生命科学、工业CAE、超算等多个场景,满足不同HPDA应用对数据传输和读写的不同需求。

 

华为数据存储与机器视觉产品线总裁周跃峰曾指出,目前世界上只有不到2%的数据得到保存,而在这些被保存下来的数据中仅有10%得到应用,海量的数据未被存储和应用是数字化经济当中最大的问题之一。

 

由于存储受限,科研人员不得不经常考虑该保留哪些数据,删掉哪些数据。例如CERN每次运行实验都会产生PB级的数据,而他们只存储写论文或实验报告所必需的内容,余下的全部删掉,因为光是保存前者就已经十分艰巨。

 

被删掉的数据就像灭绝的物种,失去了就永远回不来了。一同消失的还有蕴含在其中的价值。

 

建设超级计算机从来都不是为了追求极致算力——这是手段而非目的——而是为了计算那些现在还无法计算的问题。

 

但如果数据没被存储下来,计算从何谈起?

 

E级计算时代,新的HPC系统将承载更多类型的业务,面对更复杂的I/O模型,只有计算与存储协同发展,才能形成良好的高性能计算服务产业生态。

 

存储是确保数据在全生命周期内发挥价值的保障,HPC存储系统更是关乎国计民生与国家战略安全的关键信息基础设施。

 

根据IO-500基准测试指标,可以看出HPC存储性能还有很大提升空间。

 

华为在2001年进入存储领域,从三五人的小团队和一台预研机产品,到如今在全球拥有12个研发中心、4000+研发人员、3000+专利,全面布局存储产品线。

 

最新的IO500排名没有辜负这20年的付出,但HPC存储的竞争才刚刚开始。

位列三甲!中国获戈登·贝尔奖后,华为存储向世界证明超算硬实力的评论 (共 条)

分享到微博请遵守国家法律