來源:公眾號 鵝廠網(wǎng)事 , 作者:騰訊 付思東、孫敏
1.前言
長序列與MOE等大模型技術(shù)的涌現(xiàn),催生了復(fù)雜的并行策略,從而使通信成為性能瓶頸。為滿足大規(guī)模AI模型訓(xùn)練和推理對高帶寬、低時延通信需求,構(gòu)建大規(guī)模的GPU Scale Up網(wǎng)絡(luò)已成為關(guān)鍵方向。然而在部署時,采用集中式超節(jié)點的高密度單機柜方案(如NVL72)存在散熱和供電的壓力,分布式超節(jié)點方案(如CloudMatrix 384)又面臨著因光模塊互聯(lián)密度低難以兼顧成本和運維的挑戰(zhàn)。NPO技術(shù)具有高互聯(lián)密度、低成本的優(yōu)勢對構(gòu)建分布式Scale up網(wǎng)絡(luò)友好,提供了另外的解決途徑。但是,當前NPO技術(shù)的產(chǎn)品定義和開發(fā)以私有化模式為主,缺乏開放解耦的協(xié)同平臺,導(dǎo)致行業(yè)難以形成規(guī)模效應(yīng),制約了技術(shù)普及與生態(tài)發(fā)展。
針對上述問題,結(jié)合GPU I/O規(guī)格,我們從3.2T產(chǎn)品切入,發(fā)布涵蓋產(chǎn)品定義、性能指標等內(nèi)容的NPO技術(shù)規(guī)格。其核心目標是:通過明確技術(shù)方向和規(guī)格,牽引行業(yè)演進;構(gòu)建開放解耦的技術(shù)平臺,打破私有壁壘;加速產(chǎn)業(yè)生態(tài)鏈成熟,最終助力實現(xiàn)高性能、低成本的GPU Scale up網(wǎng)絡(luò)構(gòu)建。
2.背景:應(yīng)對規(guī)模增長的Scale up互聯(lián)需求
圖1. Sacle up超節(jié)點演進趨勢
隨著AI 大模型向千億、萬億參數(shù)規(guī)模突破,訓(xùn)練與推理場景的高并發(fā)數(shù)據(jù)傳輸需求呈指數(shù)級增長,Scale up網(wǎng)絡(luò)作為支撐算力高效釋放的核心基礎(chǔ)設(shè)施,規(guī)模也在迅速擴大。
在部署實施形態(tài)上,Scale up網(wǎng)絡(luò)可以分為集中式節(jié)點和分布式節(jié)點兩種形態(tài)。集中式節(jié)點以NVL72為代表,通過銅互聯(lián)實現(xiàn) GPU 單層級組網(wǎng),網(wǎng)絡(luò)及部署成本低。但設(shè)備高度集中帶來散熱、供電、結(jié)構(gòu)承重的壓力,銅互聯(lián)傳輸距離限制也制約了集群擴容。
分布式節(jié)點以Claud Matrix 384為代表,GPU 分散部署于多個計算節(jié)點,通過兩級光模塊互聯(lián),緩解了集中式的緊耦合難題。但兩級組網(wǎng)推高網(wǎng)絡(luò)成本、增加轉(zhuǎn)發(fā)時延;光模塊雖突破傳輸距離限制,卻提升了網(wǎng)絡(luò)功耗與互聯(lián)時延;并且配置 6912 個 400G 光模塊,給部署調(diào)試與運維管理帶來較大挑戰(zhàn)。
圖2. 可插拔模塊與NPO
NPO(近光學(xué)封裝)為分布式節(jié)點提供了另外一種互聯(lián)途徑。NPO將光引擎集中化部署在設(shè)備芯片附近,1個3.2T NPO等效 8 個 400G 光模塊,而單個產(chǎn)品尺寸僅約后者 1/3。高互聯(lián)密度大幅精簡互聯(lián)網(wǎng)絡(luò)端口數(shù)量,有效解決海量設(shè)備部署與運維難題;同時結(jié)合 Shuffle 技術(shù)實現(xiàn)單層 Scale up 組網(wǎng),降低網(wǎng)絡(luò)成本與轉(zhuǎn)發(fā)延遲;此外,NPO 支持去 DSP 設(shè)計,進一步減少網(wǎng)絡(luò)功耗、互聯(lián)時延。
3.基于線性架構(gòu)的NPO創(chuàng)新:低時延、低功耗、高密度
圖3. NPO架構(gòu)框圖與模組示意圖
NPO需要平衡密度、時延、功耗和系統(tǒng)兼容性。基于DSP架構(gòu)的方案兼容性好,但是密度、時延和功耗都無法兼顧。針對 3.2T NPO,騰訊采用模擬線性架構(gòu)定義方案。線性架構(gòu)具有低時延、低功耗的優(yōu)勢。與含DSP的架構(gòu)相比,該架構(gòu)方案可將鏈路端到端時延降低 99% 以上,同時將功耗和成本降低 40% 以上。
然而,線性架構(gòu)使用的模擬芯片(DRV和TIA)對電源電壓敏感,電源管理難以兼顧性能和互聯(lián)密度,并且不同芯片設(shè)計的電壓大多不兼容。因此,騰訊NPO規(guī)格為同時兼顧性能和互聯(lián)密度要求,保留電源管理模塊但將其外置從而釋放空間提升密度。同時,電源電壓由軟件定義從而提高系統(tǒng)兼容性。
此外,為保持系統(tǒng)簡潔性并解耦NPO和系統(tǒng)設(shè)備,規(guī)格在NPO內(nèi)部保留光電轉(zhuǎn)換模組、通信模組與控制模組,實現(xiàn)通信與反饋控制的內(nèi)部閉環(huán),降低對外部系統(tǒng)控制的依賴,實現(xiàn)與系統(tǒng)設(shè)備解耦。
4. 技術(shù)規(guī)格:全面定義NPO技術(shù)的各項指標
此次發(fā)布的3.2T NPO引擎技術(shù)規(guī)格對NPO技術(shù)的各項參數(shù)進行了全面定義,包括鏈路拓撲、接口規(guī)格、硬件定義以及管理協(xié)議等。如果把NPO看做一輛智能跑車,則鏈路拓撲是路況,接口規(guī)格是零件標準,硬件定義是設(shè)計藍圖,管理協(xié)議是智駕系統(tǒng)。定義好這些規(guī)格方能確保“跑車”在信息高速公路上安全飛馳。
4.1. 鏈路拓撲:定義應(yīng)用場景
圖4. NPO鏈路拓撲
鏈路拓撲定義了NPO的使用場景。規(guī)格針對Scale up互聯(lián)短距、多連接點場景,重點關(guān)注了MPI(多路徑干擾)和連接損耗。鏈路最大互聯(lián)距離設(shè)定為30米,支持單列多個GPU計算節(jié)點的互聯(lián),實現(xiàn)512+ GPU卡的互聯(lián)規(guī)模。同時,最大附加連接器數(shù)量設(shè)定為4個,支持引入光Shuffle,為實際應(yīng)用提供了更大的靈活性和可擴展性。
4.2. 接口規(guī)格:保障互聯(lián)互通
圖5. 光口規(guī)格
接口規(guī)格是性能評估的標準,是互聯(lián)互通的基石。Eth-x Ultra要求非常穩(wěn)定的互聯(lián),目標是1年內(nèi)512卡互聯(lián)鏈路的閃斷次數(shù)不超過1起。因此各項單體指標的測試基線從ber=2.4e-4收嚴到1e-5。規(guī)格兼容單模和多模這兩條技術(shù)路線,制定了兩種光口標準,并給出了測試要求。單模光口規(guī)格明確了鏈路最大互聯(lián)距離30 m、光損耗3.0 dB、MPI代價0.4 dB等關(guān)鍵參數(shù),確保系統(tǒng)在多連接器環(huán)境下的穩(wěn)定運行。多模光口規(guī)格正在針對不同的提案進行討論,制定更為詳細的參數(shù)標準以滿足不同應(yīng)用場景的需求。
4.3. 硬件定義:構(gòu)建開放解耦的基石
圖6. 電源與控制PIN定義
硬件定義是產(chǎn)品設(shè)計的藍圖,涉及機械結(jié)構(gòu)、PIN定義、供電與控制等方面,提供開放解耦的基礎(chǔ)。規(guī)格立足現(xiàn)有行業(yè)資源,簡化系統(tǒng)設(shè)計,實現(xiàn)高密度NPO引擎。規(guī)格復(fù)用了OIF定義的3.2T CPO機械結(jié)構(gòu),對尾纖部分等未定義的地方進行了補充。在PIN腳定義方面有較大的調(diào)整,高速信號部分沿用了OIF的RF通道定義,移除了未使用的DSP相關(guān)引腳以簡化設(shè)計。供電則聯(lián)合光電芯片設(shè)計進行優(yōu)化,將外部電源數(shù)量控制在3個以內(nèi),減少約60%,空間占用率下降20%,既簡化了系統(tǒng)設(shè)計又實現(xiàn)密度提升。此外,電源引入軟件定義電源VCC_Var,提高NPO的兼容性和靈活性??刂撇糠謩t增加了I2C通信功能,并引入了Lpmode、RESET等控制信號以提高系統(tǒng)的可管理性。
4.4. 管理協(xié)議定義:從“可用”到“好用”
圖7. 鏈路閃斷前的BER與FEC分布
管理協(xié)議是設(shè)備協(xié)同的中樞,規(guī)格制定了全面的通道監(jiān)控和管理策略,確保NPO在系統(tǒng)中的高效穩(wěn)定應(yīng)用。在通道監(jiān)控方面,針對NPO等線性系統(tǒng)無法直接監(jiān)測鏈路質(zhì)量的難題,規(guī)格在常規(guī)的DDM監(jiān)控外新增SERDES監(jiān)控,特別是FEC分布上報。根據(jù)騰訊海量光模塊互聯(lián)質(zhì)量數(shù)據(jù),常規(guī)的DDM指標難以辨別亞健康鏈路,而基于FEC的診斷可精準識別并支持故障預(yù)測,支持主動運維。由于NPO采用ELS(外置光源),因此新增ELS與NPO的協(xié)同問題。規(guī)格針對這一問題對協(xié)同過程進行了定義,并在初始化過程中增加了進光檢查流程。
總結(jié)&展望:NPO技術(shù)引領(lǐng)Scale up互聯(lián)新潮流
圖8. 3.2T NPO開發(fā)計劃
針對GPU高性能網(wǎng)絡(luò)的通信瓶頸問題,NPO技術(shù)憑借著低功耗、低時延、高帶寬密度和靈活互聯(lián)優(yōu)勢,將逐漸成為大規(guī)模Scale up互聯(lián)的主流方案之一。依托于ODCC Eth-x Ultra項目發(fā)布的3.2T NPO引擎技術(shù)規(guī)格,確立了開放解耦的技術(shù)平臺,贏得了業(yè)界的廣泛支持,明確了互聯(lián)技術(shù)的協(xié)作發(fā)展方向。
展望未來,我們正在布局基于224G的6.4T NPO技術(shù),探索下一代Scale up互聯(lián)解決方案。同時,隨著技術(shù)的不斷進步和創(chuàng)新,NPO還將與AI相結(jié)合,通過AI對NPO系統(tǒng)進行智能管理和優(yōu)化,進一步提高系統(tǒng)的運行效率和穩(wěn)定性。我們期待在不久的未來,NPO技術(shù)能夠在互聯(lián)領(lǐng)域發(fā)揮更加重要的作用,推動GPU高性能網(wǎng)絡(luò)蓬勃發(fā)展。
新聞來源:公眾號 鵝廠網(wǎng)事
相關(guān)文章