ICC訊 NVIDIA NVL72 GB200/GB300系統(tǒng):InfiniBand和以太網連接解決方案(三)
目錄
1.了解收發(fā)器類型、端口拆分和布線場景
1.1.場景1 – 1600G、800G和400G – 服務器到交換機或交換機到交換機應用
1.2.場景2 – 1600G、800G和400G – 交換機到交換機應用
1.3.場景3 – 1600G、800G、400G和200G - 服務器到交換機應用
1.4.場景4 – 1600G、800G、400G和200G – 服務器到交換機應用
1.5.場景5 – 800G和400G - 交換機到交換機應用
1.6.場景6 - 800G和400G - 交換機到交換機應用
1.7.每個場景的收發(fā)器選項和端口拆分連接
2.NVIDIA NVL72系統(tǒng)布線架構參考指南
2.1.了解NVL72機架節(jié)點 (服務器 )的計算網絡連接
2.2.了解NVL72系統(tǒng)的交換機
2.3.了解GPU集群的構建塊 - 可擴展單元的概念
2.4.在NVIDIA NVL72集群中實現布線場景
2.4.1A級 - 服務器到葉節(jié)點的布線
2.4.2B級 - 葉節(jié)點到脊節(jié)點的布線
2.4.3C級 - 脊節(jié)點到核心的布線
2.5.多模 vs 單模
2.6.整體概覽
2.6.1連接1可擴展單元集群的布線
2.6.2連接2可擴展單元集群的布線
2.6.3連接4可擴展單元集群的布線
2.6.4連接8可擴展單元集群的布線
2.6.5連接16可擴展單元集群的布線
2.7.NVL72 GB300 集群
2.7.1NVL72 GB300 以太網
2.7.2NVL72 GB300 InfiniBand
2.8.結論
附件1 高密度配線架
附件2 極性圖紙
場景1 1600G、800G 和 400G – 服務器到交換機應用
場景2 1600G、800G和400G – 交換機到交換機應用
場景3 1600G、800G、400G和200G - 服務器到交換機應用
場景4 1600G、800G、400G和200G – 交換機到交換機應用
場景5 800G 和 400G - 交換機到交換機應用
場景6 800G 和 400G - 交換機到交換機應用
附件3 參考和聯(lián)系信息
2.4. 在NVIDIA NVL72集群中實現布線場景
為了便于識別構建AI/ML集群時使用的不同布線組件,康寧在本指南中使用三個級別的連接。這些級別和交換機數量均基于16可擴展單元集群的示例:
● A級-服務器到葉節(jié)點的布線;
● B級-葉節(jié)點到脊節(jié)點的布線;
● C級-脊節(jié)點到核心層的布線。
2.4.1. A級-服務器到葉節(jié)點的布線
一個可擴展單元可以通過節(jié)點(服務器)和葉交換機之間的點對點連接來布線(見圖1),其中至少有兩種布線產品選項可供選擇(見圖12)。在一些特定的定制設計中,也可以在可擴展單元級別實施結構化布線(見圖2)。
第一種布線產品選項是使用傳統(tǒng)的單根8芯MPO跳線來建立從各NVL72機架到各葉交換機的連接以及SU內從葉交換機到脊交換機的連接。選擇不同布線供應商時,單根跳線線纜直徑可能大些,這可能會影響機架內外的線纜管理和路由。從脊交換機到核心交換機也可采用點對點連接;然而,出于對布線密度和交換機間距離的考量,結構化布線解決方案可能是首選。
第二種布線產品選項是組合使用144芯和128芯CORE主干光纜建立連接。CORE主干光纜是一種用于點對點架構的多芯光纖解決方案,它將8芯MPO-8/12 APC連接整合到一個帶阻燃護套的多芯光纖單元中。使用CORE主干光纜也可以實現從脊交換機到核心交換機的點對點連接;然而,出于對布線密度和交換機間距離的考量,可能首選組合使用CORE主干光纜和結構化布線。
無論哪種情況,產品的選擇都取決于客戶設計的具體要求。
圖12展示了可擴展單元中所需的組件或部件的數量,具體取決于是選用單根跳線還是CORE主干光纜進行布線。
無論選擇哪種方法,我們都將在SU內建立1152個到葉交換機的MPO-8/12 APC連接和1152個到脊交換機的連接,并再建立1152個到核心交換機的連接,將SU連接到核心交換機。
圖12.兩種產品方案中可擴展單元適用的連接數量
上文我們提及計算網絡經過了軌道優(yōu)化,總共有4個軌道。這些軌道對應的是引自每臺服務器的MPO-8/12 APC連接。在以下示例中,我們將用顏色標記各軌道連接,如圖13所示。
對于A級布線,我們將使用CORE主干光纜來展示從NVL72機架到可擴展單元內InfiniBand葉交換機機架的連接,因為使用它們可以簡化高密度GPU集群中的布線。如果選擇使用單根跳線,則可以按照軌道映射進行布線。
在圖13的左側,我們可以看到一個包含18臺服務器的NVL72機架,NVL72機架內的每個托盤對應其各自的軌道。在右側,是軌道1的葉交換機機架,內含16臺葉交換機,與可擴展單元內各個NVL72機架一一對應。眾所周知,Quantum-2交換機支持32個雙MPO-8/12 APC端口,這意味著每臺交換機可以支持多達64個獨立連接。
每個含16個NVL72機架的可擴展單元(SU)共需要1152條到葉交換機的MPO-8/12 APC 8芯連接(每臺服務器4條 – 每個機架72條)
圖13. A級 -使用CORE主干光纜,采用點對點連接進行服務器到葉節(jié)點的布線 - 基于16可擴展單元(SU)集群的示例
各NVL72機架的每個軌道用一條CORE主干光纜布線,將每臺服務器以同一顏色標記的所有軌道連接到其各自對應的葉交換機。例如,NVL72機架1的軌道1(藍色軌道)需連接到葉節(jié)點-01交換機端口1-18;NVL72機架2的軌道1(藍色軌道)需連接到葉節(jié)點-02交換機端口1-18;依此類推。在內含16個NVL72機架的可擴展單元中,軌道1完成每臺葉交換機前18個端口的連接(共64個),如圖14和圖15所示。此外,每臺葉交換機還有18個上行鏈路連接到脊交換機。對所有NVL72機架的每個軌道重復此過程,確保完全映射并完成可擴展單元內所有連接。
將NVL72機架連接到葉交換機機架時,無論是采用結構化布線還是有改進映射和線纜管理的需求,都可選擇將配線面板添加到可擴展單元中??砂惭b配線面板的位置如圖14所示。
圖14. A級 – CORE主干光纜路由示例
同樣的布線和映射概念也適用于軌道2、軌道3和軌道4。在圖15中,我們可以看到該布局下有4個葉交換機機架,每個軌道各一個,每個機架包含其各自的18個葉交換機。基于SU配置,如果在SU布局內采用結構化布線,則可以添加配線面板。
圖 15. A級 – CORE主干光纜到葉交換機的路由
2.4.2. B級 - 葉節(jié)點到脊節(jié)點的布線
由于葉交換機和脊交換機物理上位于同一個可擴展單元內,因此,可使用上文提及的產品選項(單根跳線或CORE主干光纜)將葉交換機連接到脊交換機,也可以采用點對點布線或結構化布線進行連接。
在圖16中,左側,我們可以看到葉交換機機架,內含軌道1的全部葉交換機,共計16個;右側,我們可以看到脊交換機機架,內含軌道1的9個脊交換機(Quantum-2,32個雙MPO-8/12 APC端口),可擴展單元內的每個NVL72機架各一個。
從葉交換機機架到脊交換機機架,共需288個連接。一個SU共需1152個葉節(jié)點到脊節(jié)點的MPO-8/12 APC 8芯連接。
圖16. B級 – 使用CORE主干光纜,采用點對點連接進行葉節(jié)點到脊節(jié)點的布線 – 基于16可擴展單元(SU)集群的示例。
使用CORE主干光纜時,單根144芯主干光纜可將軌道1(藍色軌道)葉節(jié)點-01的18個端口路由到脊交換機機架內的各個脊交換機,每個脊交換機2個端口,如圖17所示。
每條CORE主干光纜的設計都適于處理軌道1(藍色軌道)的18個連接,簡化布線的同時降低復雜性。同樣的原理也適用于軌道1(藍色軌道)內其他16個葉交換機,每個葉交換機都采用相同的CORE主干光纜配置來建立與脊交換機機架的連接。
圖17. B級 – CORE主干光纜路由示例
為改進線纜管理,在可擴展單元(SU)內進行結構化布線時可以使用配線面板。配線面板可為葉交換機的連接提供有組織、可擴展的解決方案。在將連接路由到數據中心(DC)內的集中式核心交換機區(qū)域時,強烈推薦使用結構化布線,因為這種布線方式可簡化線纜路由,增強系統(tǒng)組織架構,便于排除故障。
同樣的布線和映射概念也適用于軌道2、軌道3和軌道4。在圖18中,我們可以看到該布局下有4個葉交換機機架,每個軌道各一個。另外還有四個脊交換機機架,也是每個軌道各一個。
圖 18. B級 – CORE主干光纜到脊交換機的路由
2.4.3. C級 – 脊節(jié)點到核心的布線
脊節(jié)點到核心交換機的布線可以通過結構化布線實現。在一些特定的定制設計中,也可以在脊節(jié)點到核心連接級別實施結構化布線,這取決于核心交換機相對于脊節(jié)點的物理位置。
在圖19中,脊節(jié)點到核心的布線是通過結構化布線實現的:CORE主干光纜連接有源設備,EDGE8®主干光纜用作主干布線。在一個16可擴展單元集群中,有9個核心組,分布于18個核心機架上,每個核心機架容納16個核心交換機,因此每個核心組有32個核心交換機。
圖19. C級 – 采用結構化布線連接脊節(jié)點到核心節(jié)點,用CORE主干光纜連接有源設備,EDGE8®主干光纜用作主干布線-基于16可擴展單元集群的示例
圖20展示了聚合過程,其中每個核心交換機聚合來自所有可擴展單元的所有軌道的連接,并接收由各可擴展單元內的各個脊交換機引出的單個連接。連接總數因集群大小而異。
在此配置中,采用集中式核心,結構化布線是首選。單條128芯MPO-8/12 APC CORE主干光纜可從脊交換機引出16或32個上行鏈路連接,連接到核心機架內的16個核心交換機(各一個端口)。每個CORE主干光纜最多可支持16個連接。
圖20. C級 – CORE主干光纜和EDGE8主干光纜路由示例
圖21是各POD中CORE主干光纜和EDGE8主干光纜的總體布局,展示了它們在結構化布線框架內到集中式脊交換機機架的路由。
圖21. C級 – 結構化布線布局中CORE主干光纜和EDGE8主干光纜被路由到脊交換機
2.5.多模vs單模
在網絡中使用多模光纖還是單模光纖的選擇將取決于具體的設計要求。多模光纖的傳輸距離最多為50米,因此,其主要適用于可擴展單元內的連接,如服務器到葉節(jié)點和葉節(jié)點到脊節(jié)點的連接。然而,由于脊交換機和核心交換機在物理位置上通常并不近,因此建議在這部分設計中推薦使用單模光纖,因為單模光纖能夠有效地支持更長的傳輸距離,最遠可達500米。
2.6.整體概覽
現在我們已經了解了不同的集群尺寸,以及如何在計算網絡的有源設備之間進行布線,讓我們通過圖示總結一下可以使用的組件。這些組件將取決于具體的設計,但主要基于我們在本文中回顧的不同產品和部件編號。以下示例基于Quantum-2 InfiniBand交換機,但在使用Quantum-3 InfiniBand或Spectrum-4以太網交換機的布線中也可將其作為設計參考。
2.6.1.連接1可擴展單元集群的布線

如前所述,可擴展單元(SU)是GPU集群的基礎構建塊。對于1可擴展單元集群,可以考慮兩種不同的方法,如圖22所示。通過應用我們已探討的不同布線層級,可以總結出以下配置:
1. 非可擴展集群:此配置(見圖23)包括64個葉交換機和18個脊交換機,但它缺乏可擴展性,仍局限于兩層設計:
● 節(jié)點到葉節(jié)點(A級)的1152個MPO連接:這些連接可以使用點對點布線來實現,布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。
● 葉節(jié)點到脊節(jié)點(B級)的1152個MPO連接:這些連接也可以使用點對點布線來實現,布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。
2. 可擴展集群:此配置(見圖24)中,1個SU由64個葉交換機和36個脊交換機組成,可通過合并核心交換機層將SU數量擴展到2個或以上,過渡到三層設計:
● 節(jié)點到葉節(jié)點(A級)的1152個MPO連接:這些連接可以使用點對點布線來實現,布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。
● 葉節(jié)點到脊節(jié)點(B級)的1152個MPO連接:這些連接也可以使用點對點布線來實現,布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。
● 核心連接(C級):引入核心交換機層時,需要額外部署1152個MPO連接。有關如何實現到集中式核心交換機區(qū)域的連接,詳見圖25至圖32。
每個可擴展單元從GPU到脊節(jié)點的布線,可使用128條(144芯)CORE主干光纜(從服務器到葉節(jié)點的64條+從葉節(jié)點到脊節(jié)點的64條)來實現,而不用2304條(8芯)單根跳線(從服務器到葉節(jié)點需1152條+從葉節(jié)點到脊節(jié)點需1152條),從而管理可擴展單元內的復雜性。

圖22. 連接1可擴展單元集群的布線
在非可擴展集群中,每個葉交換機接收18個引自服務器的MPO連接,每個脊交換機接收引自各葉節(jié)點的單個MPO連接。因此,每個脊節(jié)點總共有64個MPO連接(如圖23所示)。
1152 GPU集群,采用兩層設計,有18個脊交換機

圖 23. 1可擴展單元集群(兩層設計,不可擴展)計算網絡
在可擴展集群中,每個葉交換機接收18個引自服務器的MPO連接,每個脊交換機接收從同一軌道內各葉節(jié)點引出的MPO連接(每個葉節(jié)點兩個MPO連接),因此,每個脊節(jié)點共計32個MPO連接。之后,各脊節(jié)點根據集群的大小向核心交換機轉發(fā)一定數量的連接,如圖24所示。
1152GPU集群,采用兩層設計,有36個脊交換機

圖24. 1可擴展單元集群(可擴展)計算網絡