用戶名: 密碼: 驗(yàn)證碼:

3.2T NPO突破算力互聯(lián)密度,筑牢全光網(wǎng)絡(luò)根基

摘要:針對(duì)GPU高性能網(wǎng)絡(luò)的通信瓶頸問題,NPO技術(shù)憑借著低功耗、低時(shí)延、高帶寬密度和靈活互聯(lián)優(yōu)勢(shì),將逐漸成為大規(guī)模Scale up互聯(lián)的主流方案之一。

  來源:公眾號(hào) 鵝廠網(wǎng)事 , 作者:騰訊 付思東、孫敏

1.前言

  長序列與MOE等大模型技術(shù)的涌現(xiàn),催生了復(fù)雜的并行策略,從而使通信成為性能瓶頸。為滿足大規(guī)模AI模型訓(xùn)練和推理對(duì)高帶寬、低時(shí)延通信需求,構(gòu)建大規(guī)模的GPU Scale Up網(wǎng)絡(luò)已成為關(guān)鍵方向。然而在部署時(shí),采用集中式超節(jié)點(diǎn)的高密度單機(jī)柜方案(如NVL72)存在散熱和供電的壓力,分布式超節(jié)點(diǎn)方案(如CloudMatrix 384)又面臨著因光模塊互聯(lián)密度低難以兼顧成本和運(yùn)維的挑戰(zhàn)。NPO技術(shù)具有高互聯(lián)密度、低成本的優(yōu)勢(shì)對(duì)構(gòu)建分布式Scale up網(wǎng)絡(luò)友好,提供了另外的解決途徑。但是,當(dāng)前NPO技術(shù)的產(chǎn)品定義和開發(fā)以私有化模式為主,缺乏開放解耦的協(xié)同平臺(tái),導(dǎo)致行業(yè)難以形成規(guī)模效應(yīng),制約了技術(shù)普及與生態(tài)發(fā)展。

  針對(duì)上述問題,結(jié)合GPU I/O規(guī)格,我們從3.2T產(chǎn)品切入,發(fā)布涵蓋產(chǎn)品定義、性能指標(biāo)等內(nèi)容的NPO技術(shù)規(guī)格。其核心目標(biāo)是:通過明確技術(shù)方向和規(guī)格,牽引行業(yè)演進(jìn);構(gòu)建開放解耦的技術(shù)平臺(tái),打破私有壁壘;加速產(chǎn)業(yè)生態(tài)鏈成熟,最終助力實(shí)現(xiàn)高性能、低成本的GPU Scale up網(wǎng)絡(luò)構(gòu)建。

2.背景:應(yīng)對(duì)規(guī)模增長的Scale up互聯(lián)需求

圖1. Sacle up超節(jié)點(diǎn)演進(jìn)趨勢(shì)

  隨著AI 大模型向千億、萬億參數(shù)規(guī)模突破,訓(xùn)練與推理場景的高并發(fā)數(shù)據(jù)傳輸需求呈指數(shù)級(jí)增長,Scale up網(wǎng)絡(luò)作為支撐算力高效釋放的核心基礎(chǔ)設(shè)施,規(guī)模也在迅速擴(kuò)大。

  在部署實(shí)施形態(tài)上,Scale up網(wǎng)絡(luò)可以分為集中式節(jié)點(diǎn)和分布式節(jié)點(diǎn)兩種形態(tài)。集中式節(jié)點(diǎn)以NVL72為代表,通過銅互聯(lián)實(shí)現(xiàn) GPU 單層級(jí)組網(wǎng),網(wǎng)絡(luò)及部署成本低。但設(shè)備高度集中帶來散熱、供電、結(jié)構(gòu)承重的壓力,銅互聯(lián)傳輸距離限制也制約了集群擴(kuò)容。

  分布式節(jié)點(diǎn)以Claud Matrix 384為代表,GPU 分散部署于多個(gè)計(jì)算節(jié)點(diǎn),通過兩級(jí)光模塊互聯(lián),緩解了集中式的緊耦合難題。但兩級(jí)組網(wǎng)推高網(wǎng)絡(luò)成本、增加轉(zhuǎn)發(fā)時(shí)延;光模塊雖突破傳輸距離限制,卻提升了網(wǎng)絡(luò)功耗與互聯(lián)時(shí)延;并且配置 6912 個(gè) 400G 光模塊,給部署調(diào)試與運(yùn)維管理帶來較大挑戰(zhàn)。

圖2. 可插拔模塊與NPO

  NPO(近光學(xué)封裝)為分布式節(jié)點(diǎn)提供了另外一種互聯(lián)途徑。NPO將光引擎集中化部署在設(shè)備芯片附近,1個(gè)3.2T NPO等效 8 個(gè) 400G 光模塊,而單個(gè)產(chǎn)品尺寸僅約后者 1/3。高互聯(lián)密度大幅精簡互聯(lián)網(wǎng)絡(luò)端口數(shù)量,有效解決海量設(shè)備部署與運(yùn)維難題;同時(shí)結(jié)合 Shuffle 技術(shù)實(shí)現(xiàn)單層 Scale up 組網(wǎng),降低網(wǎng)絡(luò)成本與轉(zhuǎn)發(fā)延遲;此外,NPO 支持去 DSP 設(shè)計(jì),進(jìn)一步減少網(wǎng)絡(luò)功耗、互聯(lián)時(shí)延。

3.基于線性架構(gòu)的NPO創(chuàng)新:低時(shí)延、低功耗、高密度

圖3. NPO架構(gòu)框圖與模組示意圖

  NPO需要平衡密度、時(shí)延、功耗和系統(tǒng)兼容性?;贒SP架構(gòu)的方案兼容性好,但是密度、時(shí)延和功耗都無法兼顧。針對(duì) 3.2T NPO,騰訊采用模擬線性架構(gòu)定義方案。線性架構(gòu)具有低時(shí)延、低功耗的優(yōu)勢(shì)。與含DSP的架構(gòu)相比,該架構(gòu)方案可將鏈路端到端時(shí)延降低 99% 以上,同時(shí)將功耗和成本降低 40% 以上。

  然而,線性架構(gòu)使用的模擬芯片(DRV和TIA)對(duì)電源電壓敏感,電源管理難以兼顧性能和互聯(lián)密度,并且不同芯片設(shè)計(jì)的電壓大多不兼容。因此,騰訊NPO規(guī)格為同時(shí)兼顧性能和互聯(lián)密度要求,保留電源管理模塊但將其外置從而釋放空間提升密度。同時(shí),電源電壓由軟件定義從而提高系統(tǒng)兼容性。

  此外,為保持系統(tǒng)簡潔性并解耦NPO和系統(tǒng)設(shè)備,規(guī)格在NPO內(nèi)部保留光電轉(zhuǎn)換模組、通信模組與控制模組,實(shí)現(xiàn)通信與反饋控制的內(nèi)部閉環(huán),降低對(duì)外部系統(tǒng)控制的依賴,實(shí)現(xiàn)與系統(tǒng)設(shè)備解耦。

4. 技術(shù)規(guī)格:全面定義NPO技術(shù)的各項(xiàng)指標(biāo)

  此次發(fā)布的3.2T NPO引擎技術(shù)規(guī)格對(duì)NPO技術(shù)的各項(xiàng)參數(shù)進(jìn)行了全面定義,包括鏈路拓?fù)洹⒔涌谝?guī)格、硬件定義以及管理協(xié)議等。如果把NPO看做一輛智能跑車,則鏈路拓?fù)涫锹窙r,接口規(guī)格是零件標(biāo)準(zhǔn),硬件定義是設(shè)計(jì)藍(lán)圖,管理協(xié)議是智駕系統(tǒng)。定義好這些規(guī)格方能確?!芭苘嚒痹谛畔⒏咚俟飞习踩w馳。

  4.1. 鏈路拓?fù)洌憾x應(yīng)用場景

圖4. NPO鏈路拓?fù)?

  鏈路拓?fù)涠x了NPO的使用場景。規(guī)格針對(duì)Scale up互聯(lián)短距、多連接點(diǎn)場景,重點(diǎn)關(guān)注了MPI(多路徑干擾)和連接損耗。鏈路最大互聯(lián)距離設(shè)定為30米,支持單列多個(gè)GPU計(jì)算節(jié)點(diǎn)的互聯(lián),實(shí)現(xiàn)512+ GPU卡的互聯(lián)規(guī)模。同時(shí),最大附加連接器數(shù)量設(shè)定為4個(gè),支持引入光Shuffle,為實(shí)際應(yīng)用提供了更大的靈活性和可擴(kuò)展性。

  4.2. 接口規(guī)格:保障互聯(lián)互通

     

圖5. 光口規(guī)格

  接口規(guī)格是性能評(píng)估的標(biāo)準(zhǔn),是互聯(lián)互通的基石。Eth-x Ultra要求非常穩(wěn)定的互聯(lián),目標(biāo)是1年內(nèi)512卡互聯(lián)鏈路的閃斷次數(shù)不超過1起。因此各項(xiàng)單體指標(biāo)的測試基線從ber=2.4e-4收嚴(yán)到1e-5。規(guī)格兼容單模和多模這兩條技術(shù)路線,制定了兩種光口標(biāo)準(zhǔn),并給出了測試要求。單模光口規(guī)格明確了鏈路最大互聯(lián)距離30 m、光損耗3.0 dB、MPI代價(jià)0.4 dB等關(guān)鍵參數(shù),確保系統(tǒng)在多連接器環(huán)境下的穩(wěn)定運(yùn)行。多模光口規(guī)格正在針對(duì)不同的提案進(jìn)行討論,制定更為詳細(xì)的參數(shù)標(biāo)準(zhǔn)以滿足不同應(yīng)用場景的需求。

  4.3. 硬件定義:構(gòu)建開放解耦的基石

圖6. 電源與控制PIN定義

  硬件定義是產(chǎn)品設(shè)計(jì)的藍(lán)圖,涉及機(jī)械結(jié)構(gòu)、PIN定義、供電與控制等方面,提供開放解耦的基礎(chǔ)。規(guī)格立足現(xiàn)有行業(yè)資源,簡化系統(tǒng)設(shè)計(jì),實(shí)現(xiàn)高密度NPO引擎。規(guī)格復(fù)用了OIF定義的3.2T CPO機(jī)械結(jié)構(gòu),對(duì)尾纖部分等未定義的地方進(jìn)行了補(bǔ)充。在PIN腳定義方面有較大的調(diào)整,高速信號(hào)部分沿用了OIF的RF通道定義,移除了未使用的DSP相關(guān)引腳以簡化設(shè)計(jì)。供電則聯(lián)合光電芯片設(shè)計(jì)進(jìn)行優(yōu)化,將外部電源數(shù)量控制在3個(gè)以內(nèi),減少約60%,空間占用率下降20%,既簡化了系統(tǒng)設(shè)計(jì)又實(shí)現(xiàn)密度提升。此外,電源引入軟件定義電源VCC_Var,提高NPO的兼容性和靈活性。控制部分則增加了I2C通信功能,并引入了Lpmode、RESET等控制信號(hào)以提高系統(tǒng)的可管理性。

  4.4. 管理協(xié)議定義:從“可用”到“好用”

圖7. 鏈路閃斷前的BER與FEC分布

  管理協(xié)議是設(shè)備協(xié)同的中樞,規(guī)格制定了全面的通道監(jiān)控和管理策略,確保NPO在系統(tǒng)中的高效穩(wěn)定應(yīng)用。在通道監(jiān)控方面,針對(duì)NPO等線性系統(tǒng)無法直接監(jiān)測鏈路質(zhì)量的難題,規(guī)格在常規(guī)的DDM監(jiān)控外新增SERDES監(jiān)控,特別是FEC分布上報(bào)。根據(jù)騰訊海量光模塊互聯(lián)質(zhì)量數(shù)據(jù),常規(guī)的DDM指標(biāo)難以辨別亞健康鏈路,而基于FEC的診斷可精準(zhǔn)識(shí)別并支持故障預(yù)測,支持主動(dòng)運(yùn)維。由于NPO采用ELS(外置光源),因此新增ELS與NPO的協(xié)同問題。規(guī)格針對(duì)這一問題對(duì)協(xié)同過程進(jìn)行了定義,并在初始化過程中增加了進(jìn)光檢查流程。

  總結(jié)&展望:NPO技術(shù)引領(lǐng)Scale up互聯(lián)新潮流

圖8. 3.2T NPO開發(fā)計(jì)劃

  針對(duì)GPU高性能網(wǎng)絡(luò)的通信瓶頸問題,NPO技術(shù)憑借著低功耗、低時(shí)延、高帶寬密度和靈活互聯(lián)優(yōu)勢(shì),將逐漸成為大規(guī)模Scale up互聯(lián)的主流方案之一。依托于ODCC Eth-x Ultra項(xiàng)目發(fā)布的3.2T NPO引擎技術(shù)規(guī)格,確立了開放解耦的技術(shù)平臺(tái),贏得了業(yè)界的廣泛支持,明確了互聯(lián)技術(shù)的協(xié)作發(fā)展方向。

  展望未來,我們正在布局基于224G的6.4T NPO技術(shù),探索下一代Scale up互聯(lián)解決方案。同時(shí),隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,NPO還將與AI相結(jié)合,通過AI對(duì)NPO系統(tǒng)進(jìn)行智能管理和優(yōu)化,進(jìn)一步提高系統(tǒng)的運(yùn)行效率和穩(wěn)定性。我們期待在不久的未來,NPO技術(shù)能夠在互聯(lián)領(lǐng)域發(fā)揮更加重要的作用,推動(dòng)GPU高性能網(wǎng)絡(luò)蓬勃發(fā)展。

內(nèi)容來自:公眾號(hào) 鵝廠網(wǎng)事
本文地址:http://www.n2software.net//Site/CN/News/2026/01/27/20260127100621377484.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:3.2T NPO突破算力互聯(lián)密度,筑牢全光網(wǎng)絡(luò)根基
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭議和其它問題,請(qǐng)聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right

相關(guān)新聞

暫無相關(guān)新聞