OpenAI联合英伟达等巨头发布MRC协议优化AI训练网络架构

2026-05-07 14:41:30 AI动态 3 次阅读

微新创想：昨日，OpenAI 正式发布公告，宣布联合 AMD、博通（Broadcom）、英特尔、微软及英伟达(NVIDIA)等五大行业巨头，共同推出多路径可靠连接（MRC）协议。该协议旨在解决大规模 AI 训练中极易出现的网络延迟与故障问题，并已通过开放计算项目（OCP）向全球行业开源。

微新创想：击碎“单点故障”:从三层架构到两层设计的跨越在传统的 AI 模型训练过程中，网络拥塞或单条链路的微小故障，往往会像推倒多米诺骨牌一样，导致数万块 GPU 进入闲置等待状态，造成巨额的算力浪费。为了从根本上提升系统的韧性，MRC 协议引入了多平面网络设计。它巧妙地将单一的800Gb/s 接口拆分为多个更小的链路，通过这种结构优化，系统仅需两层交换机即可支撑约13.1万块 GPU 的庞大集群。相比传统的双层或四层架构，这一改动不仅大幅减少了物理组件数量和能耗，还显著降低了建设成本。

微新创想：流量调度新方案:数据包“喷淋”与微秒级自愈除了架构上的精简，MRC 在流量分配上也展现了全新思路。它采用了自适应数据包喷淋技术，打破了传统的单路径传输模式，将任务数据包打散并分发至数百条路径进行并行传输。即便数据包在传输过程中乱序到达，接收端也能精准重组，从而有效避开了核心网络的局部拥塞。在网络控制方面，MRC 抛弃了复杂的动态路由协议（如 BGP），转而采用 SRv6源路由技术。这意味着发送端可以直接指定路径，交换机只需执行简单的静态转发。这种设计将网络故障的恢复时间从以往的“秒级”直接压缩到了“微秒级”，让系统在面对链路抖动时几乎能做到“无感自愈”。

微新创想：落地实测:超级计算机的“防抖”利器目前，MRC 协议已在英伟达 GB200超级计算机以及甲骨文（Oracle）云基础设施中投入实际应用。实测数据证明，在真实的训练场景下，即使面临链路抖动或交换机重启等突发情况，MRC 也能自动绕过故障点，确保复杂的训练任务不被中断。这一协议的开源，标志着 AI 基础设施正从“暴力堆料”向“精细化架构”转型。通过巨头间的协作，AI 训练网络正变得更加坚韧、高效且灵活。

2026年05月07日

15:23

OpenAI联合英伟达等巨头发布MRC协议优化AI训练网络架构

最新快讯

2026年05月07日

CHANNEL V音乐频道5月8日停播卫星信号全球音乐电视市场剧变引行业震动

特斯拉Roadster新商标亮相三角盾牌设计蕴含速度与科技象征

生化奇兵4延期至2027年发售 CEO承认创意反复影响进度

狨猴脑中发现与人类语言神经起源高度同源的关键线索

vivo X Fold6工程机曝光搭载天玑9500 200MP三摄旗舰配置引领折叠屏新趋势

索尼80周年庆典东京银座主题展览盛大开幕限量乐高纪念积木同步发布

信托业协会倡议抵制内卷式竞争促进行业健康可持续发展

韶音OpenDots 2白金缮艺术限定礼盒5月13日震撼上市

苹果MacBook Neo年产量提升至1000万台高价抢购A18 Pro芯片应对需求激增

马士基2026年一季度营收下滑2.6% 业绩受海运需求疲软影响

塔吉特推出两大创作者计划强化社交电商布局提升种草转化率

大行推出子品牌BICECO布局三四五线城市市场