ICC訊 隨著人工智能重新定義計算格局,網(wǎng)絡(luò)已成為塑造未來數(shù)據(jù)中心的關(guān)鍵支柱。大語言模型訓(xùn)練性能不僅取決于計算資源,更取決于底層網(wǎng)絡(luò)的敏捷性、容量與智能水平。業(yè)界正在見證從傳統(tǒng)以CPU為核心的基礎(chǔ)設(shè)施,向緊密耦合、GPU驅(qū)動、網(wǎng)絡(luò)定義的AI工廠(AI數(shù)據(jù)中心)的演進。
NVIDIA(英偉達)構(gòu)建了全面的網(wǎng)絡(luò)解決方案組合,以滿足大規(guī)?,F(xiàn)代AI訓(xùn)練與推理所需的突發(fā)高帶寬、低延遲需求——包括Spectrum-X以太網(wǎng)平臺、NVIDIA Quantum InfiniBand及BlueFieldDPU平臺。通過協(xié)同計算與通信,NVIDIA網(wǎng)絡(luò)產(chǎn)品為可擴展、高效且具備韌性的AI數(shù)據(jù)中心奠定基礎(chǔ),使網(wǎng)絡(luò)成為賦能未來AI創(chuàng)新的中樞神經(jīng)系統(tǒng)。
本文將探討NVIDIA網(wǎng)絡(luò)技術(shù)如何通過共封裝光學(xué)(CPO)創(chuàng)新,為大規(guī)模AI數(shù)據(jù)中心實現(xiàn)能效與韌性的大幅提升。
AI數(shù)據(jù)中心基礎(chǔ)設(shè)施與傳統(tǒng)企業(yè)數(shù)據(jù)中心有何不同?
在傳統(tǒng)企業(yè)數(shù)據(jù)中心中,一層交換機集成在每個服務(wù)器機架內(nèi),通過銅纜直接連接服務(wù)器,最大限度地降低了功耗和組件復(fù)雜度。這種架構(gòu)足以滿足以CPU為核心、網(wǎng)絡(luò)需求適中的工作負載。
相比之下,NVIDIA開創(chuàng)的現(xiàn)代AI數(shù)據(jù)中心采用超密集計算機架和數(shù)千個GPU協(xié)同處理單一任務(wù)。這些設(shè)備需要跨整個數(shù)據(jù)中心實現(xiàn)最大帶寬和最低延遲,因此催生了新的拓撲結(jié)構(gòu)——將一層交換機重新部署到機柜行末端。這種配置顯著增加了服務(wù)器與交換機之間的距離,使得光通信網(wǎng)絡(luò)成為必需。因此,功耗和光組件數(shù)量顯著增加,現(xiàn)在網(wǎng)卡到交換機以及交換機之間的連接都需要光模塊支持。
如圖1所示,這種演進反映了為滿足大規(guī)模AI工作負載對高帶寬和低延遲要求所需的拓撲結(jié)構(gòu)和技術(shù)重大轉(zhuǎn)變,從根本上重塑了數(shù)據(jù)中心的物理形態(tài)和能耗特征。
圖1. 橫向擴展(Scale-out)和AI密集度依賴于光互連
如何優(yōu)化AI數(shù)據(jù)中心的網(wǎng)絡(luò)可靠性與能效?
采用可插拔光模塊的傳統(tǒng)網(wǎng)絡(luò)交換機依賴多個電氣接口。在此類架構(gòu)中,數(shù)據(jù)信號需經(jīng)過漫長路徑:從交換芯片到印刷電路板,通過連接器傳輸至外部光模塊,最終才轉(zhuǎn)換為光信號。如圖2所示,這種分段式傳輸會導(dǎo)致顯著的電信號損耗——200Gbps通道的損耗高達22dB。這迫使系統(tǒng)需要采用復(fù)雜的數(shù)字信號處理(DSP)和多個有源組件進行補償。
圖2. Spectrum-X光子技術(shù)實現(xiàn)64倍信號完整性提升
由此帶來的是更高功耗(每個接口通常達30瓦)、增加的發(fā)熱量以及更多潛在故障點。大量獨立模塊和連接不僅推高系統(tǒng)功耗與組件數(shù)量,更直接削弱鏈路可靠性,為規(guī)模化部署的人工智能系統(tǒng)帶來持續(xù)運維挑戰(zhàn)。圖3展示了各組件的典型功耗情況。
圖3. Spectrum-X光子技術(shù)實現(xiàn)3.5倍能效提升
相比之下,采用共封裝光學(xué)(CPO)技術(shù)的交換機將電光轉(zhuǎn)換模塊直接集成在交換機封裝內(nèi)。光纖直接連接位于交換芯片旁的光引擎,將電信號損耗降至約4分貝,功耗最低可控制在9W。通過簡化信號路徑并消除冗余接口,這種設(shè)計顯著提升了信號完整性、可靠性和能效。這正是高密度、高性能AI數(shù)據(jù)中心所需的理想解決方案。
共封裝光學(xué)(CPO)技術(shù)為AI數(shù)據(jù)中心帶來什么?
為滿足人工智能數(shù)據(jù)中心前所未有的需求,英偉達設(shè)計了基于共封裝光學(xué)(CPO)的系統(tǒng)。全新推出的NVIDIA Quantum-X光子學(xué)平臺和Spectrum-X光子學(xué)平臺(見圖4)將光學(xué)引擎直接集成到交換芯片上,以此取代傳統(tǒng)的可插拔光模塊。這些創(chuàng)新方案通過簡化信號路徑,顯著提升性能、能效與可靠性。這些突破不僅創(chuàng)造了帶寬和端口密度的新紀錄,更從本質(zhì)上改變了人工智能數(shù)據(jù)中心的經(jīng)濟效益與物理設(shè)計格局。
圖4. 采用集成式共封裝硅光引擎的NVIDIA光子交換芯片
Quantum-X光子技術(shù)如何定義下一代InfiniBand網(wǎng)絡(luò)
隨著NVIDIA Quantum-X InfiniBand光子平臺的推出,英偉達將InfiniBand交換技術(shù)推向新高度。該平臺具備:
· 115Tb/s交換容量,支持144個800Gb/s端口
· 采用第四代NVIDIA可擴展分層聚合與縮減協(xié)議(SHARP)技術(shù),提供14.4TFLOPS的網(wǎng)絡(luò)內(nèi)計算能力
· 液冷散熱實現(xiàn)卓越的熱管理效能
· 專用InfiniBand管理端口確保強大的帶內(nèi)控制與監(jiān)控功能
NVIDIA Quantum-X通過集成硅光技術(shù)實現(xiàn)無與倫比的帶寬、超低延遲及運行韌性。共封裝光學(xué)設(shè)計降低功耗、提升可靠性、支持快速部署,并能滿足代理式AI工作負載的大規(guī)?;ヂ?lián)需求。
Spectrum-X光子技術(shù)如何助力大規(guī)模以太網(wǎng)AI數(shù)據(jù)中心
將CPO革命延伸至以太網(wǎng)領(lǐng)域,NVIDIA Spectrum-X光子交換機專為生成式AI和大規(guī)模LLM訓(xùn)練及推理任務(wù)設(shè)計。新一代Spectrum-X光子解決方案包含兩款基于Spectrum-6芯片的液冷機箱:
· Spectrum SN6810:提供102.4Tb/s,配備128個800Gb/s端口
· Spectrum SN6800:實現(xiàn)409.6Tb/s,配備512個800Gb/s超高密度端口
兩大平臺均采用NVIDIA硅光技術(shù),大幅減少離散組件與電氣接口數(shù)量。相比傳統(tǒng)架構(gòu)實現(xiàn)3.5倍能效提升,并通過減少潛在故障光組件數(shù)量將可靠性提高10倍。技術(shù)人員可獲得更便捷的維護體驗,AI運營商則享受加速1.3倍的設(shè)備上線速度與更優(yōu)的首令牌生成時間。
英偉達共封裝光學(xué)技術(shù)由強大的合作伙伴生態(tài)系統(tǒng)支撐。這種跨行業(yè)協(xié)作不僅確保技術(shù)性能,更為全球大規(guī)模AI基礎(chǔ)設(shè)施部署提供了所需的制造擴展性與可靠性。
共封裝光學(xué)(CPO)如何實現(xiàn)性能、能效與可靠性的三重突破
共封裝光學(xué)技術(shù)的優(yōu)勢顯而易見:
· 3.5倍能效提升:通過消除可插拔光模塊并將光學(xué)器件直接集成至交換芯片封裝,即使在網(wǎng)絡(luò)密度激增的情況下,單端口功耗仍大幅下降
· 10倍可靠性增強:減少離散有源組件數(shù)量并移除易故障的光模塊,顯著提升運行時間與操作可靠性
· 1.3倍部署加速:簡化的組裝與維護流程轉(zhuǎn)化為AI數(shù)據(jù)中心的快速部署與彈性擴展
這些交換系統(tǒng)實現(xiàn)業(yè)界領(lǐng)先的帶寬性能(最高409.6Tb/s,支持512個800Gb/s端口),并全部采用高效液冷技術(shù)應(yīng)對高密度、高功耗環(huán)境。圖5所示分別為:NVIDIA Quantum-X Photonics Q3450交換機(115Tb/s),以及單芯片架構(gòu)的Spectrum-X SN6810(102.4Tb/s)與四芯片架構(gòu)集成光纖調(diào)配器的Spectrum-X SN6800(409.6Tb/s)光子交換平臺。
這些產(chǎn)品共同推動網(wǎng)絡(luò)架構(gòu)變革,滿足AI工作負載對帶寬和超低延遲的極致需求。尖端光學(xué)組件與強大系統(tǒng)集成伙伴的結(jié)合,創(chuàng)造了適應(yīng)當前及未來擴展需求的優(yōu)化網(wǎng)絡(luò)架構(gòu)。隨著超大規(guī)模數(shù)據(jù)中心對快速部署和堅如磐石的可靠性要求日益提升,CPO正從技術(shù)創(chuàng)新轉(zhuǎn)變?yōu)楸厝贿x擇。
圖5. NVIDIA Quantum-X與Spectrum-X光子交換平臺
如何開啟代理式AI新時代
NVIDIA Quantum-X與Spectrum-X光子交換機標志著網(wǎng)絡(luò)架構(gòu)向AI規(guī)?;枨蟮膶I(yè)化轉(zhuǎn)型。通過消除傳統(tǒng)電氣與可插拔架構(gòu)的瓶頸,這些共封裝光學(xué)系統(tǒng)提供了現(xiàn)代AI數(shù)據(jù)中心所需的性能、能效與可靠性。隨著NVIDIA Quantum-X InfiniBand交換機計劃于2026年初商用、Spectrum-X以太網(wǎng)交換機于2026下半年上市,英偉達正在為代理式AI時代的優(yōu)化網(wǎng)絡(luò)設(shè)立新標準。
敬請關(guān)注本文章系列第二篇,我們將深入解析這些突破性平臺的內(nèi)部架構(gòu),揭秘支撐NVIDIA Quantum-X與Spectrum-X光子技術(shù)的硅光引擎核心技術(shù)——從芯片級集成創(chuàng)新到新型調(diào)制方案,下一期將全面剖析這些光子引擎在AI網(wǎng)絡(luò)領(lǐng)域脫穎而出的技術(shù)奧秘。
作者:Ashkan Seyedi, Nvidia市場產(chǎn)品總監(jiān)
新聞來源:訊石光通訊網(wǎng)
相關(guān)文章