OpenAI联合五大巨头发布MRC网络协议
「OpenAI携手AMD、博通、英特尔、微软和英伟达推出MRC协议,旨在解决大规模AI训练中的网络延迟与故障问题,并通过OCP开源。」
在人工智能模型规模持续膨胀的当下,训练集群的网络性能已成为制约效率的关键瓶颈。近日,OpenAI联合AMD、博通、英特尔、微软和英伟达五大行业巨头,共同发布了一项名为“多路径可靠连接”(Multipath Reliable Connection,简称MRC)的全新网络协议,旨在从根本上重塑大规模AI训练的网络架构。该协议已通过开放计算项目(OCP)向全行业开放,标志着AI基础设施领域的一次重要技术协同。
MRC协议的核心目标,是解决当前大规模AI训练中日益严峻的网络挑战。随着模型参数从千亿级迈向万亿级,训练任务往往需要数万甚至数十万块GPU并行工作。在这种超大规模集群中,单一数据传输的延迟都可能导致整个训练进程中断,造成昂贵的GPU资源闲置。网络拥塞、链路故障及设备异常是主要诱因,且集群规模越大,问题发生的频率和影响范围就越显著。传统网络架构在应对这类场景时,往往显得力不从心。
针对传统架构扩展性不足的痛点,MRC引入了创新的多平面网络设计。具体而言,该协议将单一的800Gb/s高速接口拆分为多个较小的逻辑链路,通过巧妙的路由设计,系统仅需两层交换机即可连接约13.1万块GPU。相比之下,传统网络方案通常需要三层甚至四层交换架构,不仅增加了网络功耗和硬件组件数量,也限制了路径的多样性。MRC的这一设计在降低成本的同时,显著提升了网络拓扑的灵活性和容错能力。
在流量调度层面,MRC采用了自适应数据包喷淋技术。与传统网络依赖单一路径传输不同,该技术将同一传输任务的数据包分散至数百条不同的路径上并行发送。这种“喷淋”机制有效避免了核心网络节点的拥塞,即使部分路径出现抖动,整体传输仍能保持高效。即便数据包因多路径传输而乱序到达,接收端也能依据数据包携带的内存地址信息进行正确重组,确保数据传输的完整性与准确性。
为了进一步简化网络控制,MRC摒弃了传统网络中复杂的动态路由协议(如BGP),转而采用SRv6(基于IPv6的段路由)源路由技术。在MRC架构下,发送端直接指定数据包经过的完整路径,网络中的交换机仅需依据预先配置的静态表项进行转发。这种设计消除了动态路由协议可能带来的故障行为,例如路由收敛延迟、路由震荡等。实际测试表明,MRC使网络故障恢复时间从传统的秒级缩短至微秒级,极大提升了训练任务的稳定性。
目前,MRC协议已在实际部署中展现出色表现。据悉,该协议已应用于NVIDIA GB200超级计算机以及Oracle Cloud Infrastructure(OCI)的站点。在真实的AI训练场景中,即使发生链路抖动或交换机重启等异常情况,MRC也能在不中断训练任务的前提下,自动检测并绕过故障节点,确保训练进程的连续性。这一特性对于动辄数周甚至数月的大模型训练来说,具有极高的商业价值。
此次OpenAI联合五大巨头发布MRC协议,并通过OCP向全行业开源,意味着AI基础设施领域正从各自为战走向协同标准化。对于开发者而言,MRC的开放将降低构建超大规模训练集群的网络门槛,使得更多企业和研究机构能够专注于模型算法本身,而非底层网络调优。随着AI模型规模的持续增长,类似MRC这样的底层协议创新,将成为推动整个行业进步的关键基石。
来源:Heooo AI工具导航