微新创想:2026年5月6日,OpenAI联合AMD、博通、英特尔、微软和英伟达共同发布多路径可靠连接(MRC)协议,并通过开放计算项目(OCP)向全行业开源。该协议基于RoCE扩展,融合SRv6源路由技术,旨在解决大规模AI训练中的网络延迟与单点故障问题。
MRC采用多平面网络设计,支持单接口拆分为多链路,仅需两层交换机即可连接约13.1万块GPU。这种架构不仅提升了网络的扩展性,还显著增强了系统的稳定性与效率。
引入自适应数据包喷淋与静态路径调度,使故障恢复时间从秒级缩短至微秒级。这一突破性技术使得AI训练过程在面对网络故障时能够保持连续性,极大提高了计算任务的可靠性。
目前已部署于NVIDIA GB200及Oracle Cloud基础设施中,实测可实现故障下训练不中断。MRC协议的推出标志着AI训练网络技术迈入了一个新的阶段,为未来的大规模计算提供了坚实的基础。
