用戶名: 密碼: 驗(yàn)證碼:

超節(jié)點(diǎn)與 Scale up 網(wǎng)絡(luò)專題之英偉達(dá)

摘要:為適配 LLM 參數(shù)擴(kuò)容對 TP、EP 的嚴(yán)苛網(wǎng)絡(luò)需求,英偉達(dá)推出三代超節(jié)點(diǎn),持續(xù)升級 NVLink 提升帶寬并規(guī)劃更大規(guī)模方案。受產(chǎn)業(yè)探索降低 TP/EP 規(guī)模影響,其領(lǐng)先優(yōu)勢受限,Scale up 與 Scale out 融合成潛在發(fā)展方向。

  ICC訊  近日,東興證券發(fā)布的研究報(bào)告《超節(jié)點(diǎn)與 Scale up 網(wǎng)絡(luò)專題之英偉達(dá):行業(yè)標(biāo)桿,領(lǐng)先優(yōu)勢建立在 NVLink 和NVLink Switch 》顯示,大語言模型(LLM)參數(shù)規(guī)模從千億級向萬億級乃至十萬億級演進(jìn),跨服務(wù)器張量并行(TP)成為必然選擇;此外混合專家(MoE)模型在 Transformer 架構(gòu) LLM 中的規(guī)模化應(yīng)用,更使跨服務(wù)器專家并行(EP)成為分布式訓(xùn)練和推理的關(guān)鍵技術(shù)需求。為應(yīng)對 TP 和 EP 對網(wǎng)絡(luò)帶寬與延遲的極為嚴(yán)苛的要求,構(gòu)建超高帶寬、超低延遲的 Scale up 網(wǎng)絡(luò)(縱向擴(kuò)張網(wǎng)絡(luò))成為業(yè)界主流技術(shù)路徑。

  目前英偉達(dá)超節(jié)點(diǎn)已經(jīng)推出成熟方案。2024-2026 年,英偉達(dá)陸續(xù)推出 GH200 NVL72、GB200/ GB300NVL72、VR200 NVL72 三代超節(jié)點(diǎn)。

  ●  Hopper 架構(gòu)開啟超節(jié)點(diǎn) Scale up 初步探索。GH200 通過 NVLink 和 NVLink-C2C(Chip-to-Chip)技術(shù),使得每個(gè) GPU 可以訪問其他所有 CPU 和 GPU 芯片的內(nèi)存,實(shí)現(xiàn) GPU 與 CPU 內(nèi)存統(tǒng)一編址。?

  ●  Blackwell 架構(gòu)推動 Scale up 標(biāo)準(zhǔn)化。GB200 NVL72 將 Scale-up 規(guī)模穩(wěn)定在 72 個(gè) GPU/機(jī)柜,形成可復(fù)制標(biāo)準(zhǔn)化方案。NVL72 由 18 個(gè) Compute Tray(計(jì)算托架)和 9 個(gè) Switch Tray(網(wǎng)絡(luò)交換托架)構(gòu)成。其中,Compute Tray 是計(jì)算核心單元,負(fù)責(zé)提供強(qiáng)大的計(jì)算能力;Switch Tray 是高速通信樞紐,用于實(shí)現(xiàn) GPU 之間的高速數(shù)據(jù)交換。NVL72 背板通過“NVLink5 私有協(xié)議 + 銅線纜”將18 個(gè) Compute Tray 中的 72 顆 B200 GPU 和 9 個(gè) Switch Tray 中的 18 顆 NVSwitch 芯片進(jìn)行滿帶寬全連接。

  ●  Rubin架構(gòu)推動Scale up方案帶寬倍增。2026年1月CES展會,英偉達(dá)發(fā)布Rubin架構(gòu)VR200 NVL72。其中 NVLink 6 Switch 實(shí)現(xiàn)單 GPU 的互連帶寬提升至 3.6 TB/s,上代為 1.8TB/s。Scale out 方面,Spectrum-6 交換機(jī)支持 CPO(共封裝光學(xué))技術(shù),將 32 個(gè) 1.6Tb/s 硅光光學(xué)引擎與交換芯片直接封裝集成。

  在超節(jié)點(diǎn)方案上,英偉達(dá)處于領(lǐng)先優(yōu)勢。2024-2025 年,英偉達(dá)陸續(xù)推出 GH200 NVL72、GB200/ GB300NVL72 等成熟超節(jié)點(diǎn)解決方案。根據(jù)大摩預(yù)測,2025 年英偉達(dá) GB200/300 NVL72 出貨量約 2800 臺。展望 2026-2027 年,英偉達(dá)計(jì)劃推出 Vera Rubin NVL144 和 Rubin Ultra NVL576?;ヂ?lián) GPU 數(shù)將從 72 顆進(jìn)一步向 576 顆發(fā)展。屆時(shí),英偉達(dá)將在新一代 Kyber 機(jī)架架構(gòu)中引入 NVLink Switch Blade(NVLink 交換機(jī)刀片),通過 PCB 中板替代傳統(tǒng) 5000+根有源銅纜??梢钥吹剑琑ubin Ultra NVL576 仍具有較強(qiáng)的工程創(chuàng)新能力。

  英偉達(dá)超節(jié)點(diǎn)的優(yōu)勢建立在 NVLink 和 NVLink Switch。為實(shí)現(xiàn) AI 訓(xùn)練集群高帶寬與低延遲數(shù)據(jù)傳輸,NVLink 重新設(shè)計(jì)通信架構(gòu),并引入一系列先進(jìn)技術(shù),包括網(wǎng)狀拓?fù)?、差分信號傳輸、流量調(diào)度信用機(jī)制、多Lane綁定技術(shù)、統(tǒng)一內(nèi)存空間等。截止2025年,NVLink 5 Switch實(shí)現(xiàn)支持單GPU到GPU帶寬1800GB/s,可構(gòu)建 72 GPU 的 NVLink 域,總帶寬達(dá) 130 TB/s(雙向),支持 72 GPU 全互聯(lián)通信。在后續(xù)計(jì)劃中,NVSwitch Gen6 和 Gen7 的 GPU-to-GPU 通信帶寬繼續(xù)升級為 3.6TB/s。

  但另一方面,Scale up 網(wǎng)絡(luò)興起源于滿足大模型分布式訓(xùn)練和推理中的張量并行(TP)與專家并行(EP)。目前 AI 產(chǎn)業(yè)也在探索降低 TP 與 EP 規(guī)模的技術(shù)方案,從而降低 Scale up 網(wǎng)絡(luò)規(guī)模的上限。我們認(rèn)為,Scaleup 網(wǎng)絡(luò)的發(fā)展空間或限制英偉達(dá)在超節(jié)點(diǎn)領(lǐng)域的領(lǐng)先優(yōu)勢。為保持領(lǐng)先優(yōu)勢,實(shí)現(xiàn) Scale up 網(wǎng)絡(luò)和 Scaleout 網(wǎng)絡(luò)融合或?qū)⒊蔀橛ミ_(dá)超節(jié)點(diǎn)新的發(fā)展趨勢。

內(nèi)容來自:東興證券
本文地址:http://www.n2software.net//Site/CN/News/2026/02/05/20260205065756855469.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字:
文章標(biāo)題:超節(jié)點(diǎn)與 Scale up 網(wǎng)絡(luò)專題之英偉達(dá)
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭議和其它問題,請聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right