数字技术与基础设施

OpenAI联合五大科技巨头发布MRC协议重塑大规模AI训练网络架构

日期:2026-06-04

|  来源:【字号:

202655日,OpenAI联合AMD、博通、英特尔、微软、英伟达五家科技巨头,推出多路径可靠连接(MRC)协议,并通过开放计算项目(OCP)向全行业开源。该协议旨在解决大规模AI训练中的网络延迟和故障问题,提升超级计算机网络的性能与韧性。

大规模AI模型训练依赖大量GPU协同工作,但网络延迟或链路故障可能导致整个训练进程中断,造成GPU闲置。传统网络架构在应对大规模集群时存在局限,容易出现网络拥塞、故障恢复慢等问题,且集群规模越大,这些问题越突出,直接影响训练效率。

MRC协议通过创新设计优化网络架构:采用多路径网络设计,将单一800Gb/s接口拆分为多个较小链路,减少网络层级,提升路径多样性,降低功耗和成本;引入智能流量调度技术,将数据包分散至多条路径并行传输,避免核心网络拥堵,即使数据包乱序也能正确重组;简化网络控制,摒弃复杂动态路由,采用源路由技术,发送端直接指定路径,使故障恢复时间从秒级缩短至微秒级。

目前,MRC已应用于英伟达GB200超级计算机及甲骨文云基础设施(Oracle Cloud InfrastructureOCI)站点。在真实训练场景中,即使发生链路抖动或交换机重启,MRC也能在不中断训练任务的情况下自动绕过故障,有效保障了AI训练的连续性。

信息来源:

https://openai.com/index/mrc-supercomputer-networking/

https://www.ithome.com/0/947/114.htm


附件: