英伟达Blackwell平台刷新MLPerf训练纪录
「英伟达在MLPerf Training 6.0测试中,凭借Blackwell平台拿下全部七项基准测试最快成绩,DeepSeek-V3 671B训练提速60%,最快仅需2.02分钟。」
英伟达在最新发布的MLPerf Training 6.0基准测试中,凭借其Blackwell平台(包括GB200 NVL72和GB300 NVL72机架级系统)取得了全部七项核心测试的最快训练成绩,并成为唯一覆盖所有测试项目的平台。MLPerf Training是业界广泛采用的AI训练性能基准,用于比较不同硬件和系统在模型训练任务中的速度与效率。
本次测试套件新增了DeepSeek-V3 671B和GPT-OSS-20B两个混合专家模型(MoE)预训练工作负载,进一步丰富了评估维度。七项测试涵盖了大语言模型、生成式AI及经典机器学习任务:包括基于671B参数的稀疏计算模型DeepSeek-V3、210亿参数的GPT-OSS 20B、80亿参数的Llama 3.1-8B预训练、利用低秩自适应(LoRA)技术微调70B参数的Llama 2-70B、文生图模型FLUX.1、基于RGAT模型的图神经网络(GNN)测试,以及基于DLRM的推荐系统测试。
英伟达提交了GB200 NVL72和GB300 NVL72两套系统。每套NVL72内部通过第五代NVLink Switch连接72块GPU,将算力和内存整合为统一资源池,大幅提升了训练效率。在性能层面,GB300 NVL72相比GB200 NVL72,在同等规模下最高可带来1.6倍的训练速度提升。在规模扩展方面,英伟达将Blackwell训练集群扩展至8192块GPU,在DeepSeek-V3 671B任务上,使用GB200 NVL72完成了迄今MLPerf Training中规模最大的Blackwell提交。
值得注意的是,云服务商CoreWeave借助采用Spectrum-X以太网的GB300 NVL72系统,在8192块GPU规模上将DeepSeek-V3 671B训练至目标质量,耗时仅需2.02分钟,相比此前记录提速约60%。这一成绩充分展示了Blackwell平台在超大规模MoE模型训练上的卓越性能,也为AI基础设施的演进树立了新的标杆。
来源:Heooo AI工具导航