忆联UH812a以MLPerf Storage标杆级验证，重塑AI存储效能，奠定智能算力基石

摘要生成中

AI生成，仅供参考

随着AI大模型进入万亿参数时代，传统存储性能测试已难以真实反映存储系统在实际训练场景中对成本与效率的核心影响。为此，全球权威AI基准测评组织MLCommons正式推出MLPerf Storage基准测试套件，为行业建立起一套贴合实际、具有指导意义的权威评估框架。

区别于传统存储性能测试，MLPerf Storage基准的核心价值在于直接评估存储系统能否支撑GPU集群达到并维持高利用率——这直接决定了整体训练耗时与算力资源成本。该基准在v2.0版本中进一步引入Checkpoint工作负载，精准模拟大模型训练中的容灾恢复环节，使评测更贴近前沿场景的实际需求。

为评估忆联Gen5eSSD UH812a在AI场景中的性能表现，本次测试基于MLPerf Storage v2.0默认参数展开，并特别针对对数据供给要求更高的NVIDIA H100加速器进行模拟验证，以检验存储系统能否充分适配新一代算力平台的性能需求。此次测试覆盖了MLPerf Storage v2.0包含的全部训练负载，包括U-Net3D、ResNet50、CosmoFlow和Checkpoint。

结果显示，在四项训练模型中，UH812a的GPU利用率均超过基准要求，表现出强劲的性能;同时在可支持的加速器数量上亦领先于行业同类产品，有力验证了其在高负载AI训练场景下可提供稳定且高性能的存储支持。

测试环境

部件	配置信息
CPU	Intel（R） Xeon(R) Gold6430CPU @2.1GHz*2
内存	512GB
存储	系统盘:Union Memory SATA2*480GB 数据盘:Union Memory UH812a7.68TB
Linux内核版本	Linux6.17.4-1.el8.elrepo.x86_64
性能测试软件	MLPerf Storage v2.0

测试结果

1、U-Net3D训练场景

该场景模拟医疗影像等大体积3D数据的训练过程，要求存储系统持续为多个并发GPU客户端提供大型数据文件（单个约146MB），旨在测试存储的极限顺序读写带宽，确保GPU不会因数据供给不足而出现空闲等待。

在U-Net3D场景负载下，我们共计训练了42000个文件，模拟了1到5颗GPU的训练过程。如图1所示，UH812a在模拟5颗H100GPU的负载下，实现了14566.46MB/s的最高吞吐量，接近标称读带宽（14900MB/s），此时GPU利用率(AU)达到最低96%，远高于基准所要求的90%以上水平。通过图1也可看见，UH812a的性能随着GPU数量增加而线性提升，且GPU利用率仅出现微弱波动，证明其在多客户端高并发访问场景下仍能持续提供稳定、高带宽的数据流。

忆联UH812a以MLPerf Storage标杆级验证，重塑AI存储效能，奠定智能算力基石

图1:UH812a在不同数量H100环境下的性能测试结果

此外，在该场景测试中，UH812a可支持高达5颗H100加速器，优于对比竞品（仅支持4颗），凸显了其在大体积3D数据训练负载下更强的并发处理能力与性能优势。

图2:UH812a与竞品可支持的H100数量对比

2、ResNet50训练场景

此场景模拟常规图像分类模型的训练流程，要求存储系统能够应对海量GPU客户端的高并发、随机读取需求，处理大量小型图片文件（每个约150KB），从而充分考验存储系统的高IOPS和低延迟元数据处理能力。

在ResNet-50场景测试中，我们共计训练了19163个文件，模拟了10至78颗GPU的训练过程。如图3所示，在模拟78颗H100GPU的负载下，UH812a实现了14008.66MB/s的最大吞吐量，GPU利用率稳定在92.2%，同样超过基准要求（AU>90%），体现出其能够为复杂训练任务持续提供充足的存储性能支持。

图3:UH812a在不同数量H100环境下的性能测试结果

另外，在此场景测试中，UH812a可支持高达78颗H100加速器同时高效工作，显著领先于竞品（分别为65颗和64颗）。这一优势表明，UH812a具备支撑更大规模AI训练集群的潜力，能为极致扩展的模型训练任务提供稳定可靠的数据供给基础。

图4:UH812a与竞品可支持的H100数量对比

3、CosmoFlow训练场景

该场景主要模拟气候、宇宙学等科学计算中的大规模训练任务，要求存储系统能够支持从8个到数千个客户端的GPU集群扩展，同时高效读取海量中等尺寸文件（每个约2MB）。其核心挑战在于存储系统的可扩展性与延迟稳定性——任何局部的访问延迟都可能拖慢整个分布式训练作业，因此对存储系统的并发处理与响应一致性要求更高。

在CosmoFlow场景的实际验证中，我们累计训练了971819个文本数据，并模拟了1至26颗GPU的训练过程。如图5所示，当加速器数量达到23颗及以上时，UH812a的吞吐量稳定维持在约14000MB/s，同时GPU利用率始终高于基准要求（AU>70%），展现出卓越的系统可扩展性与持续稳定的高并发数据供给能力。