当前位置: 首页 > news >正文

万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践

AI数据中心网络热潮下,如何突破传统以太网利用率瓶颈?

近年来,随着AI大模型训练(如GPT-4、Gemini)的爆发式增长,数据中心网络的流量压力急剧上升。单次训练任务可能涉及数千张GPU卡协同工作,生成集合通信流量(All-Reduce、All-to-All等),网络面临高并发、低延迟、无损传输的严苛需求。然而,传统以太网的网络利用率长期徘徊在35%~40%,成为制约AI算力释放的关键瓶颈。如何将利用率提升至85%甚至90%以上?这需要从架构设计、传输协议到调度算法的全面革新。

AI大模型训练催生网络利用率危机

当前,AI训练任务的数据规模呈指数级增长。以混合专家模型(MoE)为例,其参数分布在不同GPU节点上,训练过程中频繁的梯度同步与参数更新会触发In-Cast拥塞——多源同时向单一目的节点发送数据,导致目的链路带宽瞬时耗尽。传统以太网依赖ECMP(等价多路径)进行负载均衡,但面对AI流量的高熵值特性(流持续时间长、包大小固定),ECMP的粗粒度Hash调度极易引发“流量极化”(部分链路过载而其他链路闲置)。

超级以太网:从架构到协议的效率革命

超以太网联盟(UEC)提出了一套系统性解决方案,目标是将网络利用率提升至85%以上,其核心技术涵盖以下维度:


1. 无损传输:从粗暴丢弃到精准控制

传统以太网在拥塞时直接丢弃报文,而UEC引入端到端无损传输技术,结合RoCEv2的PFC(优先级流量控制)和ECN(显式拥塞通知),实现微秒级拥塞反馈。例如,当交换机检测到队列深度超过阈值时,通过ECN标记数据包头部,通知接收端触发速率调节,避免全局性丢包。针对In-Cast拥塞,UEC进一步提出INC(In-Network Computing)技术,允许交换机在传输过程中对All-Reduce流量进行梯度聚合,减少冗余数据传输量。

2. 拓扑革新:CLOS架构与动态无阻塞

传统三层网络架构(接入-汇聚-核心)因收敛比限制,难以避免纵向带宽瓶颈。UEC采用CLOS无阻塞拓扑,通过横向扩展实现“任意端口间均可直达”,总接入带宽与核心带宽保持1:1。然而,CLOS架构仍需应对局部链路拥塞问题。为此,UEC提出包喷洒(Packet Spraying)技术,将单条流的报文分散到多条等价路径,结合传输层协议支持乱序重组,最大化利用全网带宽。实验表明,包喷洒可将长流(如AI训练流)的链路利用率提升30%以上。

3. 拥塞机制:UEC传输层改进方案

当In-Cast拥塞产生后,目前主要通过端到端的流控机制来缓解这一问题。例如,基于ECN的DCQCN/DCTCP技术通过调节源端的发送流量速率,适应网络的可用带宽。由于ECN携带的信息只有1个bit,这种调节方式不够精确。例如,DCQCN在收到ECN后,首先会大幅度降低速率,然后逐步提高速率,直到与可用带宽匹配。这个过程较为缓慢,期间网络带宽的利用率明显不足。为了解决这一问题,UEC传输层(UET,Ultra Ethernet Transport Layer)提出了以下改进措施:

  • 加速调整过程:UET通过测量端到端延迟来调节发送速率,并根据接收方的能力通知发送方调整速率,快速达到线速。

  • 基于遥测:来自网络的拥塞信息可以通告拥塞的位置和原因,缩短拥塞信令路径并向终端节点提供更多信息,从而实现更快的拥塞响应。

解锁90%利用率的关键实践

作为UEC核心成员,星融元通过自研技术进一步突破利用率极限,其创新点包括:

1、Flowlet:微突发流量的精细化调度

AI训练流量具有显著的计算-通信交替特性,通信阶段产生大量微秒级突发流量(Flowlet)。星融元利用Flowlet间的空闲间隔(>100μs),将其动态调度至不同路径,既避免报文乱序,又实现负载均衡。例如,在ResNet-152训练任务中,Flowlet技术将网络吞吐量提升22%,时延降低15%。

2、基于遥测的路由

为了将包、flowlet或整个流调度到不同的路径上,需要路由协议的控制。传统的路由协议,基于静态的网络信息来计算最优路径,如OSPF基于网络带宽计算最短路径,BGP根据AS-PATH长度计算ECMP等。这种控制与网络实际负载脱节,需要加以改进。

基于遥测的路由(Int-based Routing)技术结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是动态测量的延迟,从而能够根据实时的网络负载进行路由,从而充分利用每个路径的带宽。

3、WCMP

ECMP技术将包、flowlet或整个流均匀的分布到多个路径上,忽略了不同路径上的实际负载。为了进一步提升网络利用率。星融元采用加权代价多路径(Weighted Cost Multiple Path)算法,基于遥测获取的时延等信息,在时延更低的路径上调度更多的流量,在时延更高的路径上调度更少的流量,从而实现所有路径的公平利用。在理想情况下,流量经过不同路径的总时延是相等的,可充分利用所有可用带宽。

【参考文献】

  • [1] Ultra Ethernet Consortium, “Ultra Ethernet Introduction” 15th October 2024.
  • [2] Asterfusion, “Unveiling AI Data Center Network Traffic” https://cloudswit.ch/blogs/ai-data-center-network-traffic/.
  • [3] Asterfusion, “What is Leaf-Spine Architecture and How to Build it?” https://cloudswit.ch/blogs/what-is-leaf-spine-architecture-and-how-to-build-it/.

相关文章:

  • 【力扣刷题实战】丢失的数字
  • Java大师成长计划之第6天:Java流式API(Stream API)
  • Redis 小记
  • Cursor + Figma-Context-MCP ,让 Cursor 获取 Figma 设计图信息,实现 AI 生成页面的高度还原
  • 【3分钟准备前端面试】Hybrid开发 谷歌浏览器调试安卓app
  • ViTa-Zero:零样本视觉触觉目标 6D 姿态估计
  • 深入解析 Babylon.js 中的 TransformNode.lookAt 方法
  • 【Unity】 Dropdown默认选择不选择任何选项
  • 怎么把Ubuntu系统虚拟环境中启动命令做成系统服务可以后台运行?
  • 【“星瑞” O6 评测】 — llm CPU部署对比高通骁龙CPU
  • Flutter 学习之旅 之 flutter 作为 module ,在 Android 端主动唤起 Flutter 开发的界面 简单的整理
  • DBeaver CE 24.1.3 (Windows 64位) 详细安装教程
  • .net 常用
  • 基于C++实现人工智能—五子棋的目标识别
  • Google在架ab包分析-巴西
  • 阿里云服务器dns怎么修改服务器地址?服务器dns怎么设置??
  • MTK Android12-13 App卸载加锁
  • 基于 Java 的实现前端组装查询语句,后端直接执行查询方案,涵盖前端和后端的设计思路
  • 如何搭建spark yarn 模式的集群集群
  • java 和 C#操作数据库对比
  • 长三角议事厅·周报|长三角游戏出海,关键在“生态输出”
  • 北京朝阳涉住宅组团地块126亿元成交
  • 夜读丨怀念那个写信的年代
  • 海南儋州市委副书记任延新已赴市人大常委会履新
  • 俄外长与美国务卿通电话,讨论俄美关系及乌克兰问题
  • 年客流超2500万,九岁的上海国际旅游度假区有哪些文旅商体实践?