隨著人工智能技術(shù)的飛速發(fā)展,特別是AI大模型參數(shù)規(guī)模的快速增長(zhǎng),對(duì)計(jì)算資源的需求呈現(xiàn)出爆炸性增長(zhǎng),需要極高的算力來(lái)處理和訓(xùn)練,同時(shí)模型的注意力機(jī)制和前饋網(wǎng)絡(luò)都需要大量的內(nèi)存資源。最理想的方式就是開(kāi)發(fā)一個(gè)超級(jí)大的GPU,具備超級(jí)大的計(jì)算能力和內(nèi)存資源,由這個(gè)超級(jí)GPU完成所有大模型數(shù)據(jù)的處理。但現(xiàn)實(shí)上是不可能的,業(yè)界發(fā)展出超節(jié)點(diǎn)技術(shù)來(lái)應(yīng)對(duì)這一問(wèn)題。目前,在超節(jié)點(diǎn)技術(shù)領(lǐng)域,英偉達(dá)推出了基于NVLink的NVL72方案,憑借其私有協(xié)議的優(yōu)勢(shì),實(shí)現(xiàn)了高性能的GPU互聯(lián);與此同時(shí),ODCC(開(kāi)放數(shù)據(jù)中心委員會(huì))則基于以太網(wǎng)RoCE技術(shù)提出了ETH-X方案,以開(kāi)放標(biāo)準(zhǔn)為基礎(chǔ),為行業(yè)提供更具兼容性和靈活性的選擇。本文重點(diǎn)探討這兩種超節(jié)點(diǎn)解決方案的特點(diǎn)與應(yīng)用場(chǎng)景,深入分析他們?cè)诟咝阅苡?jì)算領(lǐng)域的價(jià)值與潛力。
Scale-up和Scale-out網(wǎng)絡(luò)
為了應(yīng)對(duì)大模型參數(shù)規(guī)模的快速增長(zhǎng),可以把大模型分解為兩大類(lèi),分別處理(見(jiàn)圖1)。一類(lèi)是需要在高頻度進(jìn)行數(shù)據(jù)交互的,例如張量并行,把這些并行處理放置到GPU之間,通過(guò)超高帶寬、超低時(shí)延互聯(lián)的網(wǎng)絡(luò)進(jìn)行處理,形成一個(gè)超節(jié)點(diǎn),壓縮超節(jié)點(diǎn)內(nèi)部GPU之間的通信開(kāi)銷(xiāo)成本,這個(gè)網(wǎng)絡(luò)就是Scale-up網(wǎng)絡(luò)。Scale-up網(wǎng)絡(luò)是一個(gè)追求極致性能的互聯(lián)網(wǎng)絡(luò),支持Load/ Store內(nèi)存語(yǔ)義。另一類(lèi)是將數(shù)據(jù)分解為相對(duì)獨(dú)立的并行任務(wù),如流水線并行和數(shù)據(jù)并行,這個(gè)網(wǎng)絡(luò)就是Scale-out網(wǎng)絡(luò)。Scale-out網(wǎng)絡(luò)利用現(xiàn)有的Infiniband或RoCE網(wǎng)絡(luò),支持消息語(yǔ)義。
Scale-out網(wǎng)絡(luò)通過(guò)網(wǎng)卡提供對(duì)外接口,并借助高性能、高密度的交換機(jī)組網(wǎng)實(shí)現(xiàn)節(jié)點(diǎn)間的互聯(lián)擴(kuò)展。當(dāng)前,常見(jiàn)的組網(wǎng)方式包括框盒組網(wǎng)和盒盒組網(wǎng),這兩種組網(wǎng)方式為超節(jié)點(diǎn)在Scale-out方向上的擴(kuò)展提供了靈活且高效的連接能力。
Scale-up網(wǎng)絡(luò)則聚焦于超節(jié)點(diǎn)內(nèi)部的深度互聯(lián),由GPU內(nèi)部I/O與HB Switch相結(jié)合,形成all-to- all的全互聯(lián)拓?fù)浣Y(jié)構(gòu)。在Scale-up連接的技術(shù)路線上,業(yè)界目前存在兩種主要方向:基于私有協(xié)議的方案和基于標(biāo)準(zhǔn)開(kāi)放協(xié)議的方案。這些技術(shù)路線旨在實(shí)現(xiàn)超節(jié)點(diǎn)內(nèi)部GPU之間的高速互聯(lián),從而滿足復(fù)雜計(jì)算任務(wù)對(duì)性能的極致追求。
相較于超節(jié)點(diǎn)之間的Scale-out網(wǎng)絡(luò),超節(jié)點(diǎn)內(nèi)部的Scale-up網(wǎng)絡(luò)具備顯著的優(yōu)勢(shì):更高的帶寬、更低的通信時(shí)延,以及更大的緩存一致性內(nèi)存空間。這些特性使得Scale-up網(wǎng)絡(luò)能夠更好地支持超節(jié)點(diǎn)內(nèi)部密集型計(jì)算任務(wù)的需求,進(jìn)一步提升整體計(jì)算效率。
英偉達(dá)NVL72
NVL72是英偉達(dá)推出的機(jī)柜級(jí)超節(jié)點(diǎn),整個(gè)系統(tǒng)由18個(gè)Compute Tray和9個(gè)Switch Tray構(gòu)成(見(jiàn)圖2)。1個(gè)Compute Tray包含2個(gè)GB200超級(jí)芯片(Superchip),每個(gè)GB200超級(jí)芯片有2個(gè)Blackwell系列的B200 GPU,整個(gè)機(jī)柜共72個(gè)Black- well GPU。同時(shí)每個(gè)Compute Tray提供4個(gè)網(wǎng)絡(luò)接口卡(NIC)用于Scale-out方向的擴(kuò)展。1個(gè)Switch Tray包含2顆NVLINK Switch芯片,整個(gè)機(jī)柜提供18個(gè)NVLink Switch芯片。整機(jī)柜后部通過(guò)線纜將Compute Tray和Switch Tray進(jìn)行互聯(lián)。
B200采用最新一代的NVLink 5連接方案,對(duì)外可提供1.8TB/s(NVIDIA采用雙向計(jì)算,即單向7.2Tb/s)的NVLink連接,單個(gè)Compute Tray提供7.2TB/s(單向28.8Tb/s)帶寬,NVL72整機(jī)柜的Compute Tray提供129.6TB/S的NVLink帶寬。NVLink5 Switch對(duì)外可提供7.2TB/s(單向28.8Tb/s)的NVLink連接,單個(gè)Switch Tray提供14.4TB/s(單向57.6Tb/s)帶寬,NVL72整機(jī)柜的Switch Tray提供129.6TB/s的NVLink帶寬。這樣超節(jié)點(diǎn)整機(jī)柜Compute Tray的GPU和Switch Tray的交換芯片之間就可以實(shí)現(xiàn)全連接。
B200和NVLink5采用200G的serdes,為實(shí)現(xiàn)B200的單向7.2Tb/s的帶寬,需要72個(gè)差分對(duì),NVL72超節(jié)點(diǎn)整機(jī)柜就需要5184個(gè)差分對(duì)。Compute Tray和Switch Tray通過(guò)機(jī)柜后面的線纜連接,每根線纜包含1個(gè)差分對(duì),NVL72超節(jié)點(diǎn)整機(jī)柜需要5184根線纜。
NVL72通過(guò)NVLink連接將72個(gè)GPU組成一個(gè)超大Fabric網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)解決了GPU之間的高速通信帶寬和效率問(wèn)題,同時(shí)通過(guò)NVLink,所有GPU都可以任意訪問(wèn)其他GPU的內(nèi)存空間。另外,英偉達(dá)還設(shè)計(jì)了NVLink C2C,B200和Grace CPU之間采用NVLink C2C連接,創(chuàng)建了一個(gè)NVLink可尋址的內(nèi)存地址空間,B200和Grace CPU之間的內(nèi)存可以互相訪問(wèn)。通過(guò)NVLink和NVLink C2C,每個(gè)B200 GPU可以訪問(wèn)超節(jié)點(diǎn)其他所有超級(jí)芯片的內(nèi)存,包括B200和Grace CPU。每顆B200提供192GB的HBM3e內(nèi)存,每顆Grace CPU提供480GB的LPDDR5X內(nèi)存。這樣每個(gè)GB200超級(jí)芯片提供384GB HBM內(nèi)存和480GB LPDDR5X內(nèi)存,NVL72整機(jī)柜支持13.5TB的HBM和17TB的LPDDR5X內(nèi)存容量。
GB200超級(jí)芯片的功耗為2700W,每個(gè)Compute Tray的功耗約為6.3kW,每個(gè)Switch Tray功耗超過(guò)800W,NVL72整機(jī)柜的功耗預(yù)計(jì)達(dá)到120kW,采用冷板液冷進(jìn)行散熱。
考慮到實(shí)際機(jī)房提供120kW機(jī)柜能力的難度,英偉達(dá)還支持規(guī)格減半的NVL36。有兩種方案:
Switch Tray結(jié)構(gòu)不變,Compute Tray同樣也是有2個(gè)GB200超級(jí)芯片,包含4個(gè)B200和2個(gè)Grace CPU,但尺寸改為2U,整個(gè)NVL36超節(jié)點(diǎn)的Compute Tray數(shù)量減半、GPU數(shù)量減半,Switch Tray可以有一半的帶寬(28.8Tb/s)用于對(duì)外連接擴(kuò)展;
Switch Tray結(jié)構(gòu)不變,Compute Tray尺寸不變保持為1U,但GB200超級(jí)芯片包含的B200數(shù)量減為1個(gè),整個(gè)NVL36超節(jié)點(diǎn)的GPU數(shù)量減半,Switch Tray可以有一半的帶寬(28.8Tb/s)用于對(duì)外連接擴(kuò)展。
方案2可以提供更大的LPDDR內(nèi)存空間,但價(jià)格會(huì)更貴。兩個(gè)NVL36超節(jié)點(diǎn)之間通過(guò)ACC線纜互聯(lián),同樣可以提供72卡的計(jì)算能力。通過(guò)L2 NVLink Switch進(jìn)行16個(gè)NVL36超節(jié)點(diǎn)互聯(lián),可以完成Scale-up方向NVL576的擴(kuò)展,提供576卡的計(jì)算能力。
我們來(lái)看NVL72怎么滿足Scale-up網(wǎng)絡(luò)的特性的。
高帶寬
NVL72的每個(gè)B200 GPU提供7.2Tbps的Scale-up連接帶寬,同時(shí)通過(guò)PCIe對(duì)外提供400Gbps的Scale-out連接帶寬,Scale-up帶寬是Scale-out帶寬的18倍。
低時(shí)延
英偉達(dá)官方?jīng)]有提供NVLink Switch的轉(zhuǎn)發(fā)時(shí)延具體數(shù)據(jù),但以低時(shí)延作為一個(gè)賣(mài)點(diǎn),同時(shí)從設(shè)計(jì)上充分考慮低時(shí)延的架構(gòu)。Switch Tray和Compute Tray之間采用的是電纜連接,這樣可以節(jié)省因CDR或DSP引入的將近100ns的時(shí)延,同時(shí)也降低了成本。
大內(nèi)存空間
NVL72利用NVLink和NVLink C2C,所有GPU都可以訪問(wèn)整個(gè)超節(jié)點(diǎn)其他GPU的HBM內(nèi)存和Grace CPU的DDR內(nèi)存,NVL72整機(jī)柜支持13.5TB的HBM和17TB的LPDDR5X內(nèi)存容量。
ODCC ETH-X
由中國(guó)信通院、騰訊在ODCC牽頭發(fā)起的ETH-X項(xiàng)目可以支持單個(gè)超節(jié)點(diǎn)64卡的計(jì)算能力,和英偉達(dá)的私有NVLink方案不同,ETH-X采用更為開(kāi)放的RoCE方案。
整個(gè)系統(tǒng)有16個(gè)Compute Tray和8個(gè)Switch Tray。每個(gè)Compute Tray包含4張GPU和1個(gè)X86 CPU,CPU和GPU之間通過(guò)PCIe Switch對(duì)接。整個(gè)機(jī)柜共64張GPU。同時(shí)每個(gè)Compute Tray提供4個(gè)NIC用于Scale-out方向的擴(kuò)展。每個(gè)Switch Tray包含1顆支持RoCE的高性能51.2Tbps以太網(wǎng)交換芯片,整個(gè)機(jī)柜提供8個(gè)Switch芯片。GPU和Switch芯片支持100G serdes。當(dāng)前主流的GPU互聯(lián)帶寬為3.2Tbps,ETH-X整機(jī)柜GPU互聯(lián)帶寬為204.8Tbps。8個(gè)Switch Tray支持409.6Tbps的帶寬,一半用于超節(jié)點(diǎn)柜內(nèi)連接GPU,另一半的帶寬用于背靠背連接旁邊機(jī)柜的超節(jié)點(diǎn)或者通過(guò)L2 HB Switch做更大的HBD域Scale-up擴(kuò)展。對(duì)于Intel Gaudi3 GPU,可以提供4.8Tbps的帶寬,因此超節(jié)點(diǎn)機(jī)柜需要12個(gè)Switch Tray。同時(shí),ETH-X也支持Switch Tray沒(méi)有外部Scale-up擴(kuò)展口的方案,所有serdes連接都用于柜內(nèi)互聯(lián),這時(shí)候只需要4個(gè)2U高的Switch Tray(Gaudi3為6個(gè))。
ETH-X對(duì)Scale-up網(wǎng)絡(luò)特性的支持情況:
高帶寬
ETH-X的每個(gè)GPU提供3.2Tbps(或4.8Tbps)的Scale-up連接帶寬,同時(shí)通過(guò)PCIe對(duì)外提供400Gbps的Scale-out連接帶寬,Scale-up帶寬是Scale-out帶寬的8~12倍。
低時(shí)延
ETH-X沒(méi)有限定Switch Tray的芯片型號(hào),可以采用Broadcom的Tomahawk5,也可以采用Marvell的Teralynx10,甚至還可以采用國(guó)產(chǎn)化的25.6T芯片2片進(jìn)行設(shè)計(jì)。總體來(lái)說(shuō),Scale-up方向的Switch時(shí)延控制在納秒級(jí)是大家的一個(gè)共識(shí)。同時(shí)ETH-X也借鑒了NVIDIA NVL72的經(jīng)驗(yàn),Switch Tray和Compute Tray之間采用的是更低成本和更低時(shí)延的電纜連接。
大內(nèi)存空間
NVIDIA NVL72通過(guò)GPU-Switch-GPU的NVILink實(shí)現(xiàn)統(tǒng)一內(nèi)存地址空間,通過(guò)GPU-CPU的NVLink C2C實(shí)現(xiàn)緩存一致性。而ETH-X的GPU-Switch- GPU之間為RoCE連接、GPU-CPU之間為PCIe連接,需要進(jìn)一步的開(kāi)發(fā)互通協(xié)議,向應(yīng)用層提供支持Direct Copy、Direct Access以及UVA統(tǒng)一編址等內(nèi)存語(yǔ)義,實(shí)現(xiàn)GPU之間的訪存協(xié)議。
總結(jié)和展望
NVL72和ETH-X超節(jié)點(diǎn)都可以提供高帶寬、低時(shí)延、大內(nèi)存空間的Scale-up網(wǎng)絡(luò)擴(kuò)展。NVL72方案采用NVLink和NVLink C2C連接,超節(jié)點(diǎn)內(nèi)的GPU之間的內(nèi)存都可以互訪。ETH-X采用開(kāi)放的以太網(wǎng)解決方案,優(yōu)點(diǎn)是生態(tài)開(kāi)放,可以推廣為ODCC組織的一個(gè)標(biāo)準(zhǔn),不過(guò)由于沒(méi)有NVLink這種類(lèi)總線的協(xié)議,ETH-X后續(xù)還需要進(jìn)行內(nèi)存語(yǔ)義支持的開(kāi)發(fā)。兩種超節(jié)點(diǎn)的關(guān)鍵指標(biāo)對(duì)比如表1所示。
NVL72憑借其先發(fā)優(yōu)勢(shì),在國(guó)外OTT大廠中獲得了較多的訂單,展現(xiàn)出強(qiáng)大的市場(chǎng)競(jìng)爭(zhēng)力。然而,它也存在一定的局限性,其基于私有協(xié)議的生態(tài)體系相對(duì)封閉,可能在一定程度上限制了更廣泛的行業(yè)協(xié)作與創(chuàng)新。
ETH-X作為開(kāi)放標(biāo)準(zhǔn),在進(jìn)度上稍落后于NVL72,這主要是由于公開(kāi)標(biāo)準(zhǔn)的制定過(guò)程需要投入大量時(shí)間和精力。這一過(guò)程中不僅涉及復(fù)雜的技術(shù)討論,還需在標(biāo)準(zhǔn)成員間進(jìn)行多方面的協(xié)調(diào)與博弈,包括技術(shù)細(xì)節(jié)、商業(yè)利益以及戰(zhàn)略方向等非技術(shù)因素。盡管如此,開(kāi)放標(biāo)準(zhǔn)的特性為ETH-X帶來(lái)了廣闊的潛在應(yīng)用空間和行業(yè)包容性。
獨(dú)行快,眾行遠(yuǎn),NVL72和ETH-X作為當(dāng)前超節(jié)點(diǎn)技術(shù)的兩大代表,各自展現(xiàn)了獨(dú)特的魅力。在未來(lái)的發(fā)展中,我們相信這兩種技術(shù)將在各自的生態(tài)系統(tǒng)中綻放異彩,共同為超節(jié)點(diǎn)技術(shù)的發(fā)展書(shū)寫(xiě)精彩篇章。
作者:中興通訊 潘文斌
新聞來(lái)源:中興通訊