英伟达Blackwell平台刷新MLPerf训练纪录

英伟达在最新发布的MLPerf Training 6.0基准测试中，凭借其Blackwell平台（包括GB200 NVL72和GB300 NVL72机架级系统）取得了全部七项核心测试的最快训练成绩，并成为唯一覆盖所有测试项目的平台。MLPerf Training是业界广泛采用的AI训练性能基准，用于比较不同硬件和系统在模型训练任务中的速度与效率。

本次测试套件新增了DeepSeek-V3 671B和GPT-OSS-20B两个混合专家模型（MoE）预训练工作负载，进一步丰富了评估维度。七项测试涵盖了大语言模型、生成式AI及经典机器学习任务：包括基于671B参数的稀疏计算模型DeepSeek-V3、210亿参数的GPT-OSS 20B、80亿参数的Llama 3.1-8B预训练、利用低秩自适应（LoRA）技术微调70B参数的Llama 2-70B、文生图模型FLUX.1、基于RGAT模型的图神经网络（GNN）测试，以及基于DLRM的推荐系统测试。

英伟达提交了GB200 NVL72和GB300 NVL72两套系统。每套NVL72内部通过第五代NVLink Switch连接72块GPU，将算力和内存整合为统一资源池，大幅提升了训练效率。在性能层面，GB300 NVL72相比GB200 NVL72，在同等规模下最高可带来1.6倍的训练速度提升。在规模扩展方面，英伟达将Blackwell训练集群扩展至8192块GPU，在DeepSeek-V3 671B任务上，使用GB200 NVL72完成了迄今MLPerf Training中规模最大的Blackwell提交。

值得注意的是，云服务商CoreWeave借助采用Spectrum-X以太网的GB300 NVL72系统，在8192块GPU规模上将DeepSeek-V3 671B训练至目标质量，耗时仅需2.02分钟，相比此前记录提速约60%。这一成绩充分展示了Blackwell平台在超大规模MoE模型训练上的卓越性能，也为AI基础设施的演进树立了新的标杆。