
微新创想:昨日,OpenAI 正式发布公告,宣布联合 AMD、博通(Broadcom)、英特尔、微软及英伟达(NVIDIA)等五大行业巨头,共同推出多路径可靠连接(MRC)协议。该协议旨在解决大规模 AI 训练中极易出现的网络延迟与故障问题,并已通过开放计算项目(OCP)向全球行业开源。
微新创想:击碎“单点故障”:从三层架构到两层设计的跨越在传统的 AI 模型训练过程中,网络拥塞或单条链路的微小故障,往往会像推倒多米诺骨牌一样,导致数万块 GPU 进入闲置等待状态,造成巨额的算力浪费。为了从根本上提升系统的韧性,MRC 协议引入了多平面网络设计。它巧妙地将单一的800Gb/s 接口拆分为多个更小的链路,通过这种结构优化,系统仅需两层交换机即可支撑约13.1万块 GPU 的庞大集群。相比传统的双层或四层架构,这一改动不仅大幅减少了物理组件数量和能耗,还显著降低了建设成本。

微新创想:流量调度新方案:数据包“喷淋”与微秒级自愈除了架构上的精简,MRC 在流量分配上也展现了全新思路。它采用了自适应数据包喷淋技术,打破了传统的单路径传输模式,将任务数据包打散并分发至数百条路径进行并行传输。即便数据包在传输过程中乱序到达,接收端也能精准重组,从而有效避开了核心网络的局部拥塞。在网络控制方面,MRC 抛弃了复杂的动态路由协议(如 BGP),转而采用 SRv6源路由技术。这意味着发送端可以直接指定路径,交换机只需执行简单的静态转发。这种设计将网络故障的恢复时间从以往的“秒级”直接压缩到了“微秒级”,让系统在面对链路抖动时几乎能做到“无感自愈”。
微新创想:落地实测:超级计算机的“防抖”利器目前,MRC 协议已在英伟达 GB200超级计算机以及甲骨文(Oracle)云基础设施中投入实际应用。实测数据证明,在真实的训练场景下,即使面临链路抖动或交换机重启等突发情况,MRC 也能自动绕过故障点,确保复杂的训练任务不被中断。这一协议的开源,标志着 AI 基础设施正从“暴力堆料”向“精细化架构”转型。通过巨头间的协作,AI 训练网络正变得更加坚韧、高效且灵活。
