核心结论
2026 年 5 月 6 日,Meta 联合 AMD、Broadcom、Intel、微软和 NVIDIA 五大科技巨头共同发布 Multipath Reliable Connection (MRC) 开放网络协议。这是专门针对大规模 AI 训练集群设计的新网络协议,核心目标是减少 GPU 等待时间、降低网络故障导致的训练中断、提升整体训练效率。
这条推文在发布当天获得了 4,485 个赞、488 次转发和 1,250 次书签,浏览量突破 58 万——在 AI 基础设施领域引发了罕见的高热度讨论。
发生了什么
MRC 协议的核心定位:让大规模 AI 训练集群跑得更快、更稳定,减少 GPU 时间浪费。
参与方阵容
| 公司 | 角色 | 在 AI 基础设施中的定位 |
|---|---|---|
| Meta | 发起方 | 超大模型训练需求方(Llama 系列) |
| AMD | 联合发布 | GPU/CPU 算力供应商 |
| Broadcom | 联合发布 | AI 网络芯片定制设计方 |
| Intel | 联合发布 | CPU/网络处理器供应商 |
| 微软 | 联合发布 | 云基础设施运营方(Azure) |
| NVIDIA | 联合发布 | GPU 和网络方案供应商(InfiniBand) |
这个阵容的含金量在于:它几乎涵盖了 AI 训练基础设施的全链条——从算力芯片到网络硬件,从云运营到模型训练方。
MRC 协议要解决什么问题
大规模 AI 训练集群面临的核心网络挑战:
传统方案的问题:
┌─────┐ ┌─────┐ ┌─────┐
│GPU 0│────│GPU 1│────│GPU 2│ ← 单路径依赖,任何链路故障导致训练中断
└─────┘ └─────┘ └─────┘
│ │ │
└──────────┴──────────┘
单一网络路径
MRC 方案的改进:
┌─────┐ ┌─────┐ ┌─────┐
│GPU 0│═══│GPU 1│═══│GPU 2│ ← 多路径可靠连接,自动故障切换
└─────┘ └─────┘ └─────┘
│ ╲ │ ╲ │
│ ╲ │ ╲ │
│ ╲ │ ╲ │
└══════╲═┴══════╲═┘
多路径冗余 + 可靠传输
技术优势
| 维度 | 传统方案 | MRC 协议 |
|---|---|---|
| 网络路径 | 单路径,故障即中断 | 多路径冗余,自动切换 |
| 可靠性 | 依赖物理链路稳定性 | 可靠连接层,软件层面容错 |
| GPU 利用率 | 网络问题导致 GPU 空闲等待 | 减少 GPU 等待时间 |
| 开放性 | 厂商私有协议(如 InfiniBand) | 开放协议,跨厂商兼容 |
| 生态支持 | 锁定特定厂商方案 | 六大巨头联合支持,开放标准 |
为什么重要
1. AI 训练的瓶颈正在从算力转向网络
随着模型规模增长(从千亿到万亿参数),训练集群中的 GPU 数量从几百增长到几万。当 GPU 数量增加时,网络通信的开销和故障率呈指数级增长。
一个典型的万亿参数模型训练任务:
- 需要数千张 GPU 同时工作
- GPU 之间的参数同步占用大量网络带宽
- 任何一张 GPU 的网络故障都可能导致整个训练任务暂停
MRC 协议直接针对这个痛点,通过多路径冗余和可靠连接层,降低网络故障对训练的影响。
2. 开放协议 vs 私有协议的博弈
当前 AI 训练集群的网络方案主要被 NVIDIA 的 InfiniBand 垄断。MRC 作为开放协议的出现,意味着:
- 降低供应商锁定风险:集群运营商可以混合使用不同厂商的网络设备
- 降低基础设施成本:开放协议的竞争效应可能降低网络设备价格
- 加速技术创新:多厂商参与推动协议迭代
3. AMD 数据中心 AI 业务增长 80% 的信号
同日,AMD 宣布其数据中心 AI 业务预计增长 80%,主要由云端和基础设施运营商的 GPU/CPU 订单驱动。AMD 特别提到:市场预测正在赶上实际部署周期,预示着持续的需求。
这与 MRC 协议的发布形成呼应——AI 基础设施市场正处于从规划到大规模部署的转折期。
对行业的影响
对模型训练方
- 更高的训练稳定性:减少因网络问题导致的训练中断和重启
- 更低的 GPU 闲置成本:GPU 等待网络的时间减少,训练效率提升
- 更灵活的硬件选择:不再被绑定到特定厂商的网络方案
对云服务商
- 基础设施差异化竞争:支持 MRC 协议的云平台将获得训练效率优势
- 降低运维复杂度:多路径冗余降低了对物理网络稳定性的依赖
对芯片厂商
- 新的竞争维度:网络协议层面的竞争将影响 GPU/网络芯片的市场格局
- 开放生态的机会:中小厂商可以通过支持 MRC 协议进入 AI 基础设施市场
格局判断
MRC 协议的发布是 AI 基础设施领域的一个分水岭事件。它标志着:
- AI 训练的瓶颈认知正在转变——从”需要更多 GPU”到”需要更好的网络”
- 开放协议正在挑战私有协议的垄断地位——InfiniBand 的护城河正在被侵蚀
- 行业巨头正在联合制定标准——Meta、NVIDIA、AMD、Intel 等共同参与,说明 AI 基础设施标准化正在加速
对于中国 AI 产业来说,关注 MRC 协议的发展有两个原因:一是国内大模型训练同样面临集群网络瓶颈问题;二是开放协议的出现可能降低国内厂商获取 AI 训练基础设施的门槛。