ICC訊 從 AI 大模型訓(xùn)練到多模態(tài)推理,算力規(guī)模持續(xù)放大。網(wǎng)絡(luò)已成為決定 AI 系統(tǒng)上限的關(guān)鍵因素:不僅需要更高帶寬,還需更少層級以實現(xiàn)低成本、低時延互聯(lián)?;趯Τ笠?guī)模 AI 集群的長期實踐與思考,火山引擎正式上線 102.4T 自研交換機,并以此支撐新一代 HPN 6.0 架構(gòu),可支持十萬卡級 GPU 集群的高效互聯(lián)。
創(chuàng)新的硬件設(shè)計
火山引擎自研的 102.4T 交換機憑借多維度的硬件技術(shù)創(chuàng)新和細節(jié)打磨,以高性能、高穩(wěn)定、低成本的核心優(yōu)勢成為下一代 AI 網(wǎng)絡(luò)的關(guān)鍵硬件底座。
圖1 火山引擎 102.4T 自研交換機
其核心特性如下:
? 全端口 LPO 支持:實現(xiàn)低時延、低功耗、低成本,兼顧性能、穩(wěn)定與成本。
? 創(chuàng)新的高速系統(tǒng)設(shè)計:使用 3 層扣板架構(gòu),在 4U 空間實現(xiàn)了 128 個 800G OSFP 端口。高速系統(tǒng)首創(chuàng) SerDes PCB RDL 設(shè)計,MAC 板僅為 36 層,結(jié)合 M8N+M7 疊層,實現(xiàn)了小于 20dB 的 Bump-Bump 損耗 ,在無 Cable 和 PHY 的條件下極致支持 800G LPO。
? 精密的結(jié)構(gòu)與裝配:創(chuàng)新的板載定位與多級導(dǎo)向精準(zhǔn)裝配方案大幅提升了組裝效率。通過優(yōu)化連接器同向布局釋放容差能力,累計公差減少 50%,為長期穩(wěn)定運行筑牢基礎(chǔ)。
? 極致的風(fēng)冷散熱:為應(yīng)對單芯片超過 1600 W 的散熱壓力,散熱器融合了非牛頓流體材料、石墨烯導(dǎo)熱材料與強化毛細結(jié)構(gòu),并配合系統(tǒng)級定向風(fēng)場設(shè)計,最終實現(xiàn) 40℃ 環(huán)溫下 1800m 海拔滿配穩(wěn)定運行,將風(fēng)冷技術(shù)潛力挖掘至極致。
? 超大尺寸芯片焊接:通過仿真和推導(dǎo)熱形變數(shù)據(jù),在板圖設(shè)計與生產(chǎn)中實現(xiàn)精確熱補償,成功攻克超大尺寸芯片的 SMT 焊接難題,目前焊接良率達到 100%。
? 模塊化與成本效益:機電結(jié)構(gòu)、管理板等核心部件復(fù)用上一代成熟設(shè)計,僅需更換端口板即可適配不同應(yīng)用需求,顯著降低后續(xù)升級與維護成本。
圖2 102.4T 自研交換機內(nèi)部構(gòu)成
極致的軟件特性
Lambda OS 是火山引擎自主研發(fā)的網(wǎng)絡(luò)操作系統(tǒng),它以開源 SONiC 系統(tǒng)為基礎(chǔ),結(jié)合業(yè)務(wù)場景和大規(guī)模網(wǎng)絡(luò)運維經(jīng)驗,進行了深度產(chǎn)品化定制與創(chuàng)新。
全局負載均衡
AI 大模型的流量特征呈現(xiàn)為大流(Elephant Flow)和少流(Paucity of Flows),網(wǎng)絡(luò)負載不均會導(dǎo)致部分鏈路空閑而部分鏈路擁塞丟包,使帶寬利用率從設(shè)計的 90% 降至 50% 以下。傳統(tǒng) Hash 算法的不均可能導(dǎo)致部分鏈路延遲飆升,拖慢整個集群的參數(shù)同步。例如,某鏈路擁塞導(dǎo)致同步延遲增加 10 ms,迭代 1000 次后總延遲將增加 10s,嚴(yán)重影響模型訓(xùn)練效率及推理用戶體感。
為此,火山引擎與芯片廠商深度合作,聯(lián)合開發(fā)了業(yè)界首個可擴展的全局網(wǎng)絡(luò)負載均衡技術(shù)——SGLB(可擴展且穩(wěn)健的全局負載均衡)。SGLB 基于全局拓撲,能夠微秒級感知鏈路擁塞狀態(tài),并計算端到端最優(yōu)路徑。實測性能表明,相較于傳統(tǒng) Hash 選路,GPU 網(wǎng)絡(luò)帶寬可提升 40%。更多技術(shù)細節(jié),可參閱 SIGCOMM 2025 的相關(guān)論文:https://dl.acm.org/doi/10.1145/3718958.3750527。
圖3 SGLB 示意圖
圖4 SGLB 性能數(shù)據(jù)
帶寬對稱性負載均衡
在小規(guī)模網(wǎng)絡(luò)集群中,設(shè)備間通常存在多鏈路互聯(lián),帶寬具有對稱性。如圖 5 所示的拓撲,當(dāng)一條 800G 鏈路斷開時,理想情況下業(yè)務(wù)帶寬也應(yīng)相應(yīng)損失 800G。然而在實際場景中(如圖 6 所示),由于 BGP 路由仍然可達,且傳統(tǒng)負載均衡無法感知全局拓撲變化,導(dǎo)致業(yè)務(wù)帶寬損失被不成比例地放大,損失值可能是物理帶寬損失的數(shù)倍,最高可達 32 倍。
圖5 小規(guī)模集群網(wǎng)絡(luò)
圖6 非對稱下的業(yè)務(wù)帶寬損失
因此,Lambda OS 設(shè)計了帶寬對稱性負載均衡機制。該機制能夠感知拓撲中的帶寬對稱性,確保物理帶寬損失與業(yè)務(wù)帶寬損失呈線性關(guān)系,從而提升網(wǎng)絡(luò)的可預(yù)期性。
微秒級路由收斂
在 AI 網(wǎng)絡(luò)中,鏈路抖動對模型訓(xùn)練和推理有直接影響。大模型訓(xùn)練期間,成千上萬的 GPU 需頻繁同步數(shù)據(jù),任何鏈路抖動導(dǎo)致的丟包都會使其他數(shù)千個 GPU 必須空轉(zhuǎn)等待,形成“木桶效應(yīng)”,極大地降低 GPU 利用率,造成算力資源浪費。公開資料顯示,一個萬卡 AI 集群每年因鏈路故障導(dǎo)致的訓(xùn)練中斷約 60 次;谷歌在 OFC 2025 的報告中也指出,百萬級鏈路規(guī)模下,每日故障約 40 次,月均約 1200 次。因此,在鏈路故障時快速切換路由、減少丟包至關(guān)重要。
圖7 路由收斂示意圖
鏈路故障時,快速切換流量的瓶頸在于跨設(shè)備的遠端鏈路中斷(Down)時的路由收斂。業(yè)界通過協(xié)議優(yōu)化,通常能實現(xiàn)秒級收斂。例如,AWS 在 re:Invent 2024 上介紹其自研的 SIDR 協(xié)議,將路由收斂時間從 10s 優(yōu)化至 1s。
基于在 SGLB 實踐中積累的微秒級端到端路徑感知能力,火山引擎設(shè)計并實現(xiàn)了自研的 SyncMesh 路由協(xié)議,其特點如下:
? 硬件卸載與微秒級切換:SyncMesh 支持芯片卸載,實現(xiàn)微秒級端到端狀態(tài)感知與路徑切換。
? 收斂性能與路由規(guī)模解耦:在萬級路由規(guī)模下,仍能保證微秒級的收斂速度。
與業(yè)界 1s 級的路由收斂性能相比,SyncMesh 將其提升至 50 μs,實現(xiàn)了 5 個數(shù)量級的性能飛躍。
微秒級可視化監(jiān)控
HFT(高頻遙測)支持對全量端口帶寬、隊列長度等多個統(tǒng)計指標(biāo)進行微秒級監(jiān)控,解決了傳統(tǒng)秒級監(jiān)控難以觀測和分析業(yè)務(wù)流量細節(jié)的問題。
圖8 LLaMA 流量模型下的微秒級監(jiān)控數(shù)據(jù)
新一代的 HPN 網(wǎng)絡(luò)架構(gòu)
基于 102.4T 自研交換機在軟硬件一體化方面的能力積累,火山引擎推出了面向訓(xùn)推一體場景的融合網(wǎng)絡(luò)架構(gòu)——HPN 6.0。圍繞“規(guī)模、融合、確定性”三個核心目標(biāo),HPN 6.0 重新定義了超大規(guī)模算力集群的網(wǎng)絡(luò)底座。
- 超大規(guī)模演進能力
? 采用三層 Clos 架構(gòu),單 POD 最大支持 65k 規(guī)模組網(wǎng),集群能力可線性擴展至百萬級。在不引入額外層級的前提下,HPN 6.0 兼顧了規(guī)模擴展性與網(wǎng)絡(luò)時延可控性,為十萬卡、百萬卡時代提供了可持續(xù)演進的網(wǎng)絡(luò)基礎(chǔ)。
- 面向訓(xùn)推一體的深度融合設(shè)計
? 網(wǎng)絡(luò)支持 200G/400G/800G RDMA NIC 的混速組網(wǎng),并針對不同速率、不同代際 GPU 間的帶寬不對等與通信模式差異引入了創(chuàng)新優(yōu)化方案,確保多代算力與多類型業(yè)務(wù)能夠穩(wěn)定協(xié)同。
? 同時,HPN 6.0 提供算子級與任務(wù)級雙粒度 QoS 能力,使網(wǎng)絡(luò)資源能夠精準(zhǔn)匹配訓(xùn)練、推理等不同階段的通信特征,為大規(guī)模分布式訓(xùn)練提供可預(yù)期、可驗證的高性能通信。
- 以確定性為目標(biāo)的穩(wěn)定性體系
? 通過多平面容災(zāi)架構(gòu)與芯片級 Fast Failover 能力,實現(xiàn)微秒級故障收斂,將網(wǎng)絡(luò)異常對算力任務(wù)的影響控制在最小范圍內(nèi)。
? 結(jié)合微秒級流量可視化與億萬分之一丟包級別的可感知能力,使網(wǎng)絡(luò)問題從“事后定位”轉(zhuǎn)變?yōu)椤笆虑案兄保瑸槌笠?guī)模 HPN 網(wǎng)絡(luò)的長期穩(wěn)定運行提供底層保障。
圖9 火山引擎 HPN 6.0 網(wǎng)絡(luò)架構(gòu)
結(jié)束語
102.4T 自研交換機和 HPN 6.0 網(wǎng)絡(luò)架構(gòu)的上線,是火山引擎 AI 網(wǎng)絡(luò)架構(gòu)演進中的一個重要里程碑。它不僅滿足了當(dāng)前大規(guī)模 GPU 集群的嚴(yán)苛需求,也為未來的網(wǎng)絡(luò)升級奠定了堅實的基礎(chǔ)。隨著 AI 技術(shù)的飛速發(fā)展,從 800G 到 1.6T,從萬卡到更大規(guī)模的算力集群,網(wǎng)絡(luò)基礎(chǔ)設(shè)施的演進之路永無止境?;鹕揭鎸⒗^續(xù)在硬件、軟件和系統(tǒng)架構(gòu)上不斷探索與創(chuàng)新,構(gòu)建更高效、更穩(wěn)定、更可持續(xù)演進的 AI 網(wǎng)絡(luò)底座,推動 AI 技術(shù)浪潮向前發(fā)展。