123,123

3.2T NPO突破算力互聯(lián)密度，筑牢全光網(wǎng)絡(luò)根基

訊石光通訊網(wǎng) 2026/1/27 17:50:13

來源：公眾號鵝廠網(wǎng)事，作者：騰訊付思東、孫敏

1.前言

長序列與MOE等大模型技術(shù)的涌現(xiàn)，催生了復(fù)雜的并行策略，從而使通信成為性能瓶頸。為滿足大規(guī)模AI模型訓(xùn)練和推理對高帶寬、低時延通信需求，構(gòu)建大規(guī)模的GPU Scale Up網(wǎng)絡(luò)已成為關(guān)鍵方向。然而在部署時，采用集中式超節(jié)點的高密度單機柜方案(如NVL72)存在散熱和供電的壓力，分布式超節(jié)點方案(如CloudMatrix 384)又面臨著因光模塊互聯(lián)密度低難以兼顧成本和運維的挑戰(zhàn)。NPO技術(shù)具有高互聯(lián)密度、低成本的優(yōu)勢對構(gòu)建分布式Scale up網(wǎng)絡(luò)友好，提供了另外的解決途徑。但是，當前NPO技術(shù)的產(chǎn)品定義和開發(fā)以私有化模式為主，缺乏開放解耦的協(xié)同平臺，導(dǎo)致行業(yè)難以形成規(guī)模效應(yīng)，制約了技術(shù)普及與生態(tài)發(fā)展。

針對上述問題，結(jié)合GPU I/O規(guī)格，我們從3.2T產(chǎn)品切入，發(fā)布涵蓋產(chǎn)品定義、性能指標等內(nèi)容的NPO技術(shù)規(guī)格。其核心目標是：通過明確技術(shù)方向和規(guī)格，牽引行業(yè)演進;構(gòu)建開放解耦的技術(shù)平臺，打破私有壁壘;加速產(chǎn)業(yè)生態(tài)鏈成熟，最終助力實現(xiàn)高性能、低成本的GPU Scale up網(wǎng)絡(luò)構(gòu)建。

2.背景：應(yīng)對規(guī)模增長的Scale up互聯(lián)需求

圖1. Sacle up超節(jié)點演進趨勢

隨著AI 大模型向千億、萬億參數(shù)規(guī)模突破，訓(xùn)練與推理場景的高并發(fā)數(shù)據(jù)傳輸需求呈指數(shù)級增長，Scale up網(wǎng)絡(luò)作為支撐算力高效釋放的核心基礎(chǔ)設(shè)施，規(guī)模也在迅速擴大。

在部署實施形態(tài)上，Scale up網(wǎng)絡(luò)可以分為集中式節(jié)點和分布式節(jié)點兩種形態(tài)。集中式節(jié)點以NVL72為代表，通過銅互聯(lián)實現(xiàn) GPU 單層級組網(wǎng)，網(wǎng)絡(luò)及部署成本低。但設(shè)備高度集中帶來散熱、供電、結(jié)構(gòu)承重的壓力，銅互聯(lián)傳輸距離限制也制約了集群擴容。

分布式節(jié)點以Claud Matrix 384為代表，GPU 分散部署于多個計算節(jié)點，通過兩級光模塊互聯(lián)，緩解了集中式的緊耦合難題。但兩級組網(wǎng)推高網(wǎng)絡(luò)成本、增加轉(zhuǎn)發(fā)時延;光模塊雖突破傳輸距離限制，卻提升了網(wǎng)絡(luò)功耗與互聯(lián)時延;并且配置 6912 個 400G 光模塊，給部署調(diào)試與運維管理帶來較大挑戰(zhàn)。

圖2. 可插拔模塊與NPO

NPO(近光學(xué)封裝)為分布式節(jié)點提供了另外一種互聯(lián)途徑。NPO將光引擎集中化部署在設(shè)備芯片附近，1個3.2T NPO等效 8 個 400G 光模塊，而單個產(chǎn)品尺寸僅約后者 1/3。高互聯(lián)密度大幅精簡互聯(lián)網(wǎng)絡(luò)端口數(shù)量，有效解決海量設(shè)備部署與運維難題;同時結(jié)合 Shuffle 技術(shù)實現(xiàn)單層 Scale up 組網(wǎng)，降低網(wǎng)絡(luò)成本與轉(zhuǎn)發(fā)延遲;此外，NPO 支持去 DSP 設(shè)計，進一步減少網(wǎng)絡(luò)功耗、互聯(lián)時延。

3.基于線性架構(gòu)的NPO創(chuàng)新：低時延、低功耗、高密度

圖3. NPO架構(gòu)框圖與模組示意圖

NPO需要平衡密度、時延、功耗和系統(tǒng)兼容性。基于DSP架構(gòu)的方案兼容性好，但是密度、時延和功耗都無法兼顧。針對 3.2T NPO，騰訊采用模擬線性架構(gòu)定義方案。線性架構(gòu)具有低時延、低功耗的優(yōu)勢。與含DSP的架構(gòu)相比，該架構(gòu)方案可將鏈路端到端時延降低 99% 以上，同時將功耗和成本降低 40% 以上。

然而，線性架構(gòu)使用的模擬芯片(DRV和TIA)對電源電壓敏感，電源管理難以兼顧性能和互聯(lián)密度，并且不同芯片設(shè)計的電壓大多不兼容。因此，騰訊NPO規(guī)格為同時兼顧性能和互聯(lián)密度要求，保留電源管理模塊但將其外置從而釋放空間提升密度。同時，電源電壓由軟件定義從而提高系統(tǒng)兼容性。

此外，為保持系統(tǒng)簡潔性并解耦NPO和系統(tǒng)設(shè)備，規(guī)格在NPO內(nèi)部保留光電轉(zhuǎn)換模組、通信模組與控制模組，實現(xiàn)通信與反饋控制的內(nèi)部閉環(huán)，降低對外部系統(tǒng)控制的依賴，實現(xiàn)與系統(tǒng)設(shè)備解耦。

4. 技術(shù)規(guī)格：全面定義NPO技術(shù)的各項指標

此次發(fā)布的3.2T NPO引擎技術(shù)規(guī)格對NPO技術(shù)的各項參數(shù)進行了全面定義，包括鏈路拓撲、接口規(guī)格、硬件定義以及管理協(xié)議等。如果把NPO看做一輛智能跑車，則鏈路拓撲是路況，接口規(guī)格是零件標準，硬件定義是設(shè)計藍圖，管理協(xié)議是智駕系統(tǒng)。定義好這些規(guī)格方能確保“跑車”在信息高速公路上安全飛馳。

4.1. 鏈路拓撲：定義應(yīng)用場景

圖4. NPO鏈路拓撲

鏈路拓撲定義了NPO的使用場景。規(guī)格針對Scale up互聯(lián)短距、多連接點場景，重點關(guān)注了MPI(多路徑干擾)和連接損耗。鏈路最大互聯(lián)距離設(shè)定為30米，支持單列多個GPU計算節(jié)點的互聯(lián)，實現(xiàn)512+ GPU卡的互聯(lián)規(guī)模。同時，最大附加連接器數(shù)量設(shè)定為4個，支持引入光Shuffle，為實際應(yīng)用提供了更大的靈活性和可擴展性。

4.2. 接口規(guī)格：保障互聯(lián)互通

圖5. 光口規(guī)格

接口規(guī)格是性能評估的標準，是互聯(lián)互通的基石。Eth-x Ultra要求非常穩(wěn)定的互聯(lián)，目標是1年內(nèi)512卡互聯(lián)鏈路的閃斷次數(shù)不超過1起。因此各項單體指標的測試基線從ber=2.4e-4收嚴到1e-5。規(guī)格兼容單模和多模這兩條技術(shù)路線，制定了兩種光口標準，并給出了測試要求。單模光口規(guī)格明確了鏈路最大互聯(lián)距離30 m、光損耗3.0 dB、MPI代價0.4 dB等關(guān)鍵參數(shù)，確保系統(tǒng)在多連接器環(huán)境下的穩(wěn)定運行。多模光口規(guī)格正在針對不同的提案進行討論，制定更為詳細的參數(shù)標準以滿足不同應(yīng)用場景的需求。

4.3. 硬件定義：構(gòu)建開放解耦的基石

圖6. 電源與控制PIN定義

硬件定義是產(chǎn)品設(shè)計的藍圖，涉及機械結(jié)構(gòu)、PIN定義、供電與控制等方面，提供開放解耦的基礎(chǔ)。規(guī)格立足現(xiàn)有行業(yè)資源，簡化系統(tǒng)設(shè)計，實現(xiàn)高密度NPO引擎。規(guī)格復(fù)用了OIF定義的3.2T CPO機械結(jié)構(gòu)，對尾纖部分等未定義的地方進行了補充。在PIN腳定義方面有較大的調(diào)整，高速信號部分沿用了OIF的RF通道定義，移除了未使用的DSP相關(guān)引腳以簡化設(shè)計。供電則聯(lián)合光電芯片設(shè)計進行優(yōu)化，將外部電源數(shù)量控制在3個以內(nèi)，減少約60%，空間占用率下降20%，既簡化了系統(tǒng)設(shè)計又實現(xiàn)密度提升。此外，電源引入軟件定義電源VCC_Var，提高NPO的兼容性和靈活性?？刂撇糠謩t增加了I2C通信功能，并引入了Lpmode、RESET等控制信號以提高系統(tǒng)的可管理性。

4.4. 管理協(xié)議定義：從“可用”到“好用”

圖7. 鏈路閃斷前的BER與FEC分布

管理協(xié)議是設(shè)備協(xié)同的中樞，規(guī)格制定了全面的通道監(jiān)控和管理策略，確保NPO在系統(tǒng)中的高效穩(wěn)定應(yīng)用。在通道監(jiān)控方面，針對NPO等線性系統(tǒng)無法直接監(jiān)測鏈路質(zhì)量的難題，規(guī)格在常規(guī)的DDM監(jiān)控外新增SERDES監(jiān)控，特別是FEC分布上報。根據(jù)騰訊海量光模塊互聯(lián)質(zhì)量數(shù)據(jù)，常規(guī)的DDM指標難以辨別亞健康鏈路，而基于FEC的診斷可精準識別并支持故障預(yù)測，支持主動運維。由于NPO采用ELS(外置光源)，因此新增ELS與NPO的協(xié)同問題。規(guī)格針對這一問題對協(xié)同過程進行了定義，并在初始化過程中增加了進光檢查流程。

總結(jié)&展望：NPO技術(shù)引領(lǐng)Scale up互聯(lián)新潮流

圖8. 3.2T NPO開發(fā)計劃

針對GPU高性能網(wǎng)絡(luò)的通信瓶頸問題，NPO技術(shù)憑借著低功耗、低時延、高帶寬密度和靈活互聯(lián)優(yōu)勢，將逐漸成為大規(guī)模Scale up互聯(lián)的主流方案之一。依托于ODCC Eth-x Ultra項目發(fā)布的3.2T NPO引擎技術(shù)規(guī)格，確立了開放解耦的技術(shù)平臺，贏得了業(yè)界的廣泛支持，明確了互聯(lián)技術(shù)的協(xié)作發(fā)展方向。

展望未來，我們正在布局基于224G的6.4T NPO技術(shù)，探索下一代Scale up互聯(lián)解決方案。同時，隨著技術(shù)的不斷進步和創(chuàng)新，NPO還將與AI相結(jié)合，通過AI對NPO系統(tǒng)進行智能管理和優(yōu)化，進一步提高系統(tǒng)的運行效率和穩(wěn)定性。我們期待在不久的未來，NPO技術(shù)能夠在互聯(lián)領(lǐng)域發(fā)揮更加重要的作用，推動GPU高性能網(wǎng)絡(luò)蓬勃發(fā)展。

3.2T NPO突破算力互聯(lián)密度，筑牢全光網(wǎng)絡(luò)根基

3.2T NPO突破算力互聯(lián)密度，筑牢全光網(wǎng)絡(luò)根基