面向高帶寬域的Scale-up算力高速互聯(lián)技術(shù)

訊石光通訊網(wǎng) 2025/7/9 10:57:23

  隨著人工智能技術(shù)的發(fā)展,AI大模型參數(shù)規(guī)模急劇擴張,對計算能力提出極高要求,企業(yè)構(gòu)建智算集群并引入并行計算技術(shù)加速模型訓練。但在萬億參數(shù)規(guī)模模型的跨機并行訓練中,出現(xiàn)了空泡現(xiàn)象,即模型數(shù)據(jù)傳輸時GPU因等待而無法充分利用,影響整體訓練效率?;旌蠈<夷P鸵氲膶<也⑿杏柧?,進一步加劇了通信帶寬和時延問題,使GPU空轉(zhuǎn)時間增加,成為大模型訓練的技術(shù)瓶頸。因此,實現(xiàn)超大規(guī)模智算集群內(nèi)多GPU、多服務器間的高速互聯(lián),提高GPU利用率,是行業(yè)面臨的重要挑戰(zhàn)。

  GPU機內(nèi)高速互聯(lián)關(guān)鍵需求

  為實現(xiàn)GPU高速互聯(lián)、提升其利用率,業(yè)界推出超節(jié)點方案,即在單節(jié)點增加GPU數(shù)量。此舉可顯著減少跨節(jié)點通信,因機內(nèi)帶寬通常遠高于跨機帶寬,充分挖掘機內(nèi)帶寬潛力,成為降低GPU空轉(zhuǎn)、提升利用效率的關(guān)鍵所在。GPU機內(nèi)高速互聯(lián)關(guān)鍵需求如下:

  · 更多GPU卡數(shù)可擴展互聯(lián)需求:傳統(tǒng)點對點互聯(lián)模式只支持單機8卡GPU互聯(lián),需要有創(chuàng)新性的互聯(lián)技術(shù)突破單機8卡限制,為GPU間提供高速、低延遲通信路徑,打造更大規(guī)模高帶寬域,顯著提升單機擴展性與通信帶寬。

  · 超高帶寬需求:AI訓練要求GPU集群高吞吐量互聯(lián),承載張量并行流量的帶寬需達T比特量級。當前主流的Scale-up互聯(lián)技術(shù)在物理層多使用以太網(wǎng)serdes,單通道(lane)速率高達224Gbps,遠超PCIe(peripheral component interconnet express)的serdes速率。

  · 低延遲通信需求:Scale-up網(wǎng)絡追求極致性能,要求時延控制在亞微秒級別,通過省略傳統(tǒng)網(wǎng)絡層、采用新信道編碼方案及優(yōu)化網(wǎng)絡架構(gòu)等手段,減少GPU因等待數(shù)據(jù)出現(xiàn)的閑置時間,提升系統(tǒng)整體性能。

  中興通訊GPU高速互聯(lián)OLink解決方案

  為了實現(xiàn)國內(nèi)GPU支持萬億模型訓練,中興通訊設計16卡以上超節(jié)點來搭建訓練集群,縮短總體訓練時間。

  我們結(jié)合自身在高速互聯(lián)領(lǐng)域的技術(shù)優(yōu)勢,創(chuàng)造性提出以太+總線融合的GPU卡間高速互聯(lián)技術(shù)方案(見圖1)。機內(nèi)和機間統(tǒng)一采用OLink交換高速互聯(lián)方案,通過開放的OLink互聯(lián)協(xié)議+交換芯片,提供開放的端到端GPU高速互聯(lián)方案,滿足當前及未來可預見的大模型訓練場景下GPU間的高速通信需求。

  OLink高速互聯(lián)方案技術(shù)特征

  OLink高速互聯(lián)方案融合頂尖技術(shù),物理層運用差分傳輸與輕量FEC編碼,實現(xiàn)低時延高帶寬;鏈路層靠自動重傳請求和循環(huán)冗余校驗確保可靠傳輸;信用流控機制攻克擁塞,保障無損通信;憑借統(tǒng)一內(nèi)存尋址和語義技術(shù),助力GPU內(nèi)存共享,賦能高效異構(gòu)協(xié)同。

  · 物理層低時延高帶寬:OLink總線在物理層對信號傳輸技術(shù)進行改進,減少干擾和噪聲,提供信號質(zhì)量和完整性;采用更先進的物理介質(zhì)和輕量級FEC等傳輸技術(shù),提高物理層數(shù)據(jù)傳輸速率和亞微秒級傳輸時延。

  · 鏈路層高可靠傳輸技術(shù):OLink總線對錯誤檢測和快速恢復技術(shù)進行優(yōu)化,減少數(shù)據(jù)傳輸中的丟包和重傳,同時提供鏈路級重傳技術(shù),保證數(shù)據(jù)的可靠傳輸。

  · 基于信用授權(quán)的流控技術(shù):OLink總線針對機內(nèi)GPU高速互聯(lián)場景,通過基于信用授權(quán)的擁塞流控機制,解決多打一等復雜場景下無損通信關(guān)鍵問題,提供智算芯片超大規(guī)模組網(wǎng)能力。

  · 統(tǒng)一內(nèi)存編址技術(shù):允許Scale-up域內(nèi)的GPU共享同一個虛擬地址空間,使得多個GPU可以直接互相訪問對方的內(nèi)存,方便模型參數(shù)和中間結(jié)果在顯存間靈活分配與共享,簡化異構(gòu)計算編程模型。

  · 內(nèi)存語義支持技術(shù):允許在網(wǎng)絡通信過程中對內(nèi)存進行操作,通過特定的指令集和協(xié)議,實現(xiàn)數(shù)據(jù)在內(nèi)存和網(wǎng)絡之間的高效交互,為計算節(jié)點提供更靈活的操作方式,進一步提升計算性能。

  基于OLink技術(shù)的智算芯片高速互聯(lián)

  通過OLink互聯(lián)協(xié)議+交換芯片,為GPU提供大規(guī)模端到端高速互聯(lián)解決方案。

  · 借鑒業(yè)界成熟的以太網(wǎng)生態(tài)成為首選,復用以太網(wǎng)成熟的光模塊、組網(wǎng)方案和運維能力;

  · GPU機內(nèi)和機間的互聯(lián)都使用OLink互聯(lián)技術(shù),互聯(lián)網(wǎng)絡和端側(cè)設備解耦,各廠商的算力或存儲設備均可以接入本方案的互聯(lián)網(wǎng)絡;

  · 引入更多合作伙伴,打造規(guī)模更大、成本更低的智算平臺;

  · 在GPU端側(cè)嵌入OLink IP,同時交換芯片支持在網(wǎng)計算;

  · 端側(cè)OLink IP針對大模型應用場景,對以太網(wǎng)技術(shù)進行低延遲、無損和端網(wǎng)協(xié)同等方面的改進。

  OLink未來演進

  GPU機內(nèi)Scale-up域高速互聯(lián)技術(shù)仍在持續(xù)迭代演進,OLink技術(shù)會在在網(wǎng)計算、光互聯(lián)等方向持續(xù)演進。在網(wǎng)計算技術(shù)方面,AllReduce、AllGather等操作常用于深度學習梯度同步,將其卸載到交換設備,設備接收數(shù)據(jù)后規(guī)約計算,能減少網(wǎng)絡流量,釋放處理器資源,提升網(wǎng)絡性能。伴隨光通信發(fā)展,Olink技術(shù)將在GPU高速互聯(lián)領(lǐng)域大展拳腳,實現(xiàn)更高傳輸速率、更低功耗與更遠傳輸距離,為高性能計算注入強大動力,開啟科技新篇章。


  作者:中興通訊 楊茂彬


新聞來源:中興通訊技術(shù)(簡訊)

相關(guān)文章