在万卡、十万卡的训练时代,算力不再是唯一的瓶颈,网络已成全新掣肘!当AI训练进入十万卡时代,InfiniBand竟突然翻红,重新被追捧了?
大模型竞赛进入万卡乃至十万卡时代,网络正在取代算力成为新的瓶颈。
当GPT-4的参数规模突破万亿,当Llama 3的训练集群规模达到数万卡,一个潜在问题浮出水面:通信耗时正在吞噬算力红利。
据统计,在大规模AI集群训练中,通信时间占比可达30%以上。且规模越大,占比越高。
「算力竞赛已进入网络决胜期。」这是近期产业界的普遍共识。
过去几年,RoCE(RDMA over Converged Ethernet)凭借「以太网兼容、成本可控」的优势,成为不少智算中心的选择。
但当集群规模从千卡向十万卡跃升时,RoCE的调优复杂度貌似已接近临界点。而曾被诟病「封闭昂贵」的IB(InfiniBand)架构,正迎来新的价值重估。
RoCE的本质,是在标准以太网上「嫁接」RDMA能力。尽管这种方式很难做到高性能无损互联,但在中小规模计算主导期,RoCE一直是国产算力厂商的关键平替。
然而,随着计算集群规模扩张到万卡级别,RoCE与原生RDMA的差异被快速放大。
核心症结在于流控机制的根本性区别。
RoCE依赖基于优先级的流控机制(PFC)。这套机制的逻辑是:当接收端缓冲区紧张时,发送暂停帧通知上游暂停发送。问题在于,PFC是一种粗粒度、反应式的流控——当暂停帧发出时,意味着接收端已经面临压力,丢包风险已然存在。
更棘手的是,PFC的「刹车-油门」机制在多级网络中极易引发连锁反应。一旦某个节点出现拥塞,PFC暂停信号会逐级向上传导,形成所谓的「PFC风暴」,导致整个网络瘫痪。
某互联网大厂的内部数据显示,在万卡级RoCE集群中,PFC风暴导致的训练中断每月可达数次,每次恢复耗时数分钟到数十分钟。
为应对这一问题,RoCE厂商普遍要求开启拥塞控制,并持续调整「水线」参数。
但水线调整高度依赖经验和网络流量模型,调得太高,降速不及时导致丢包;调得太低,链路带宽无法充分利用。
这意味着,运维团队需要针对不同应用、不同流量特征进行持续的手动调优。
「在大型互联网公司,确实有专门的团队做这件事,但对于大多数用户而言,这种调优门槛几乎不可逾越。」一位资深网络架构师坦言。
原生架构的「规模红利」
面向「大算力」时代考验,以InfiniBand(IB)路线为主的原生RDMA网络,表现得比RoCE更加游刃有余。

IB采用基于信用的精细化流控。发送端在发送数据前,必须确认接收端有足够的缓冲区空间。这种「先确认、后发送」的机制,从根源上杜绝了因资源不足导致的丢包,实现了真正意义上的无损网络。
这套机制带来的直接好处是:拥塞控制在IB网络中并非必需。用户无需像RoCE那样持续调整水线参数,也无需组建专门的网络优化团队。
当规模放大到万卡以上,网络技术细节中的反馈非常明显。
IB的集中式管理架构可以进行全网路规划,从根本上消除死锁风险;而RoCE的分布式管理依赖广播、协商和收敛,随着节点增加,路由收敛时间呈指数级上升,死锁概率随之暴增。
链路故障恢复能力是另一个分水岭。在大规模集群中,链路故障是常态而非例外。某头部厂商的统计显示,在数万卡规模下,日均链路故障可达数十次。
IB架构通过快速容错路由技术,可将故障恢复时间压缩至毫秒级,且这一时间不随网络规模增长而增加。这意味着,对于运行其上的大模型训练任务,底层链路故障几乎「无感」。
而RoCE的故障恢复通常需要秒级,足以触发训练中断和检查点回滚,造成数十分钟的算力浪费。
这种稳定性差异,已经开始呈现在TCO成本账单上。
被重新审视的「成本账」
长期以来,RoCE的核心吸引力在于成本。「IB太贵」几乎是行业共识。但当规模放大后,这笔账需要重新计算。
首先是运维成本的隐性膨胀。某智算服务商的测算显示,在万卡级RoCE集群中,专职网络优化团队的人力成本、因网络问题导致的算力闲置成本、故障排查时间成本,综合下来已接近甚至超过IB方案的硬件差价。
其次是组网效率的规模效应。IB的协议地址空间原本被诟病为扩展性瓶颈,但新一代国产IB方案已在单子网层面支持超过11万卡,较传统方案提升133%。更高的端口密度意味着更少的交换机层级、更低的光模块成本和功耗。
更重要的是,对于真正的高端计算场景,RoCE存在难以逾越的性能天花板。
传统HPC业务中包含大量小消息通信,对延迟极为敏感。RoCE的「存储-转发」交换机制导致动态时延易受网络拥堵影响,而IB的VCT交换可实现边收边转,交换时延控制在300ns以内——这是物理层面的代差。
在追求效率成本的AI训练中,这笔账已足以撼动头部用户的选型决策。
市场格局的微妙变化
市场数据正在印证这一趋势。Dell'Oro Group在《数据中心长期预测报告》中指出,尽管以太网在整体市场占据不小,但在AI后端网络领域,InfiniBand长期占据头部份额。
「这并非偶然。」一位行业观察人士指出,「AI训练对网络丢包是零容忍的,而IB是唯一从设计之初就为此场景优化的原生方案。RoCE本质是用通用网络跑专用负载,能跑和跑好是两回事。」
在国内市场,这一认知也在加速落地。随着大模型竞赛从「拼参数」转向「拼落地」,从「千卡试点」走向「万卡标配」,用户对网络稳定性的权重正在上升。
「去年我们还在讨论RoCE能不能用,今年客户问得更多的是:万卡以上到底稳不稳?」
一位网络设备厂商的销售总监表示,「当训练任务动辄跑几十天,一次网络抖动带来的损失就足以覆盖IB的差价。这时候,原生架构的稳定性就变成了硬通货。」
过去,讨论IB与RoCE的路线选择,很大程度上是在「性能」与「自主可控」之间做取舍——IB性能强但依赖海外,RoCE触手可及但性能妥协。
这一局面正在迎来变数。
今天,中科曙光推出首款国产原生无损RDMA高速网络scaleFabric。据说该产品实现了从112G SerDes IP、交换芯片、网卡到软件平台的100%全栈自研。


核心指标非常抢眼:scaleFabric端到端时延低于1微秒,转发时延260纳秒,单子网支持超11万卡扩展,性能对标国际顶尖IB产品NVIDIA NDR。
「这不是简单的国产替代,而是从技术路线层面给出了新的选项。」有分析认为,国产IB方案的落地,意味着用户可以不再在「性能」与「安全」之间二选一,而是可以兼得。
更重要的是,这套方案已在国家超算互联网郑州核心节点实现3万卡商用部署,累计运行作业超10万项,完成了国产最大规模的真实负载验证。
「以前选RoCE,多少有点无奈——想要国产,只能选它。现在有了真正能打的国产IB,路线选择的逻辑也将发生变化。」一位智算中心规划负责人表示。

网络成为算力竞争「胜负手」
当大模型进入万卡时代,网络已不再是算力的配角,而是决定集群效率的核心变量。
中国工程院院士邬贺铨指出,大模型训练、智算集群规模化部署,对网络提出「超低延迟、超高带宽、全程无损」的严苛要求,RDMA高速网络已成为智算集群的「算力大动脉」。

RoCE在过去几年功不可没,它以较低门槛推动了RDMA技术的普及。但当规模从千卡放大到十万卡,嫁接式架构的运维复杂度大幅上升。这条「动脉」的韧性和宽广度都迎来挑战。
IB作为原生RDMA方案,凭借基于信用的精确流控、集中式管理架构、毫秒级故障恢复等技术特性,在极限规模下展现出不可替代的稳定性优势,但此前长期受制于海外供应。
国产IB方案的突破,显然正在消除自主可控层面的顾虑。
「scaleFabric是国内首款全栈自主研发的400G原生RDMA高速网络系统,性能对标国际主流,且经规模化实践验证」。邬院士认为,这将打破国外技术垄断,补齐国产高速网络短板。

今年两会期间,高层提出要着眼高水平科技自立自强,加强原始创新和关键核心技术攻关。并且部署了超大规模智算集群等新基建工程。未来的万卡级算力基础设施将成为新常态。
可以预见,随着智算集群向十万卡乃至更大规模演进,RDMA技术路线的选择或将跳出安全考量和成本计算,真正锚定未来集群「能否真正跑起来」的需求做出战略决策。
无论如何,在这场算力规模化竞速中,网络已经成为新的胜负手。
文章来自于“新智元”,作者 “Aeneas”。