忆联UH812a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石

摘要生成中
AI生成,仅供参考

随着AI大模型进入万亿参数时代,传统存储性能测试已难以真实反映存储系统在实际训练场景中对成本与效率的核心影响。为此,全球权威AI基准测评组织MLCommons正式推出MLPerf Storage基准测试套件,为行业建立起一套贴合实际、具有指导意义的权威评估框架。

区别于传统存储性能测试,MLPerf Storage基准的核心价值在于直接评估存储系统能否支撑GPU集群达到并维持高利用率——这直接决定了整体训练耗时与算力资源成本。该基准在v2.0版本中进一步引入Checkpoint工作负载,精准模拟大模型训练中的容灾恢复环节,使评测更贴近前沿场景的实际需求。

为评估忆联Gen5eSSD UH812a在AI场景中的性能表现,本次测试基于MLPerf Storage v2.0默认参数展开,并特别针对对数据供给要求更高的NVIDIA H100加速器进行模拟验证,以检验存储系统能否充分适配新一代算力平台的性能需求。此次测试覆盖了MLPerf Storage v2.0包含的全部训练负载,包括U-Net3D、ResNet50、CosmoFlow和Checkpoint。

结果显示,四项训练模型UH812aGPU利用率超过基准要求,表现出强劲的性能;同时支持的加速器数量领先于行业同类产品,有力验证了其高负载AI训练场景下可提供稳定高性能的存储支持

测试环境

部件

配置信息

CPU

Intel(R) Xeon(R) Gold6430CPU @2.1GHz*2

内存

512GB

存储

系统盘:Union Memory SATA2*480GB

数据盘:Union Memory UH812a7.68TB

Linux内核版本

Linux6.17.4-1.el8.elrepo.x86_64

性能测试软件

MLPerf Storage v2.0

测试结果

1、U-Net3D训练场景

该场景模拟医疗影像等大体积3D数据的训练过程,要求存储系统持续为多个并发GPU客户端提供大型数据文件(单个约146MB),旨在测试存储的极限顺序读写带宽,确保GPU不会因数据供给不足而出现空闲等待。

在U-Net3D场景负载下,我们共计训练了42000个文件,模拟了1到5颗GPU的训练过程。如图1所示,UH812a在模拟5H100GPU的负载下,实现了14566.46MB/s的最高吞吐量,接近标称读带宽(14900MB/s),此时GPU利用率(AU)达到最低96%,远高于基准所要求的90%以上水平。通过图1也可看见,UH812a的性能随GPU数量增加线性提升,GPU利用率仅出现微弱波动,证明其在多客户端高并发访问场景下仍能持续提供稳定、高带宽的数据流。

忆联UH812a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石

图1:UH812a在不同数量H100环境下的性能测试结果

此外,在该场景测试中,UH812a可支持高达5颗H100加速器,优于对比竞品(仅支持4颗),凸显了其在大体积3D数据训练负载下更强的并发处理能力与性能优势。

忆联UH812a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石

图2:UH812a与竞品可支持的H100数量对比

2、ResNet50训练场景

此场景模拟常规图像分类模型的训练流程,要求存储系统能够应对海量GPU客户端的高并发、随机读取需求,处理大量小型图片文件(每个约150KB),从而充分考验存储系统的高IOPS和低延迟元数据处理能力。

在ResNet-50场景测试中,我们共计训练了19163个文件,模拟了10至78颗GPU的训练过程。如图3所示,在模拟78H100GPU的负载下,UH812a实现了14008.66MB/s的最大吞吐量,GPU利用率稳定在92.2%,同样超过基准要求(AU>90%,体现出其能够为复杂训练任务持续提供充足的存储性能支持。

忆联UH812a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石

图3:UH812a在不同数量H100环境下的性能测试结果

另外,在此场景测试中,UH812a支持高达78H100加速器同时高效工作显著领先于竞品(分别65颗和64颗)。这一优势表明,UH812a具备支撑更大规模AI训练集群的潜力,能为极致扩展的模型训练任务提供稳定可靠的数据供给基础。

忆联UH812a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石

图4:UH812a与竞品可支持的H100数量对比

3、CosmoFlow训练场景

该场景主要模拟气候、宇宙学等科学计算中的大规模训练任务,要求存储系统能够支持从8个到数千个客户端的GPU集群扩展,同时高效读取海量中等尺寸文件(每个约2MB)。其核心挑战在于存储系统的可扩展性与延迟稳定性——任何局部的访问延迟都可能拖慢整个分布式训练作业,因此对存储系统的并发处理与响应一致性要求更高。

在CosmoFlow场景的实际验证中,我们累计训练了971819个文本数据,并模拟了1至26颗GPU的训练过程。如图5所示,当加速器数量达到23及以上时,UH812a吞吐量稳定维持14000MB/s,同时GPU利用率始终高于基准要求(AU>70%,展现出卓越的系统可扩展性与持续稳定的高并发数据供给能力。

忆联UH812a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石

图5:UH812a在不同数量H100环境下的性能测试结果

此外,在这一场景下,UH812a可支持26颗H100加速器,相比于竞品(支持21颗和16颗),支持GPU数量更多,可为高负载场景提供稳定可靠的存储服务。

忆联UH812a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石

图6:UH812a与竞品可支持的H100数量对比

4、Checkpoint训练场景

此场景模拟大模型训练中保存和恢复训练状态的关键操作,要求所有GPU同时将完整的模型状态(参数、优化器等,规模可达数TB)顺序写入存储,再快速读取。该过程是对存储系统高并发顺序读写带宽的终极考验,其性能直接决定了训练任务因中断而损失的时间。

在Checkpoint场景的实测中,受限于时间等因素,我们以Llama3-8b模型进行了写入测试,图7结果显示,UH812a带宽达到13053.4MB/s竞品A提升24%竞品B提升11%可为用户提供高性能的读写体验

忆联UH812a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石

图7:Llama3-8b模型下UH812a与竞品表现对比

MLPerf Storage v2.0的测试结果表明,UH812a能够充分满足前沿AI场景对存储系统的严苛性能需求,尤其在数据供给能力和稳定性方面展现出显著优势,性能领先于业界同类产品。这不仅印证了其在加速AI工作负载方面的卓越能力,也体现了其作为智能算力底座关键一环的核心价值。

未来,忆联将继续聚焦AI存储技术创新与产品研发,致力于通过更高性能、更可靠的存储解决方案,持续赋能智能算力基础设施建设,与产业伙伴共同推动人工智能技术的规模化落地与持续演进。

(本文转载自站长之家)

© 版权声明

相关文章

13 条评论

  • 吃西瓜不吐核
    吃西瓜不吐核 读者

    这UH812a真能扛住78颗H100?有点不敢信🤔

    中国上海
    回复
  • 布丁小公主
    布丁小公主 读者

    5颗GPU才96%利用率,这有点低了吧?

    中国吉林
    回复
  • 沙雕的橙子
    沙雕的橙子 读者

    13053MB/s的写入,实际训练中断恢复能快多少?

    中国北京
    回复
  • Ropemaker
    Ropemaker 游客

    搞AI存储的可以关注下这个测试结果。

    中国广东
    回复
  • 云朵奶盖
    云朵奶盖 读者

    这价格估计不便宜,普通公司用不上。

    中国内蒙古
    回复
  • 画龙点睛
    画龙点睛 读者

    之前用过忆联的盘,发热有点猛,不知道这代压住了没

    日本
    回复
  • 船夫郑
    船夫郑 读者

    Checkpoint写入13053MB/s?比竞品高一截啊,求实测对比

    中国湖北
    回复
  • 蓝兔小姐
    蓝兔小姐 读者

    太贵了吧这也,中小企业根本玩不起

    中国上海
    回复
  • 魂蚀影
    魂蚀影 游客

    支持26颗GPU就敢吹“重塑”?标题党味儿有点重hhh

    中国河南
    回复
  • 深渊独行
    深渊独行 读者

    我司刚上H100集群,正愁存储瓶颈,这个得看看

    中国广东
    回复