用戶名: 密碼: 驗(yàn)證碼:

英偉達(dá)回應(yīng)CPO“質(zhì)疑”,將于今年規(guī)模部署

摘要:2 月 5 日消息,英偉達(dá)在研討會(huì)上詳解 CPO 共封裝硅光技術(shù),稱其可大幅降低光互連功耗、提升系統(tǒng)可靠性,計(jì)劃今年啟動(dòng)規(guī)模部署,并回應(yīng)了業(yè)界對(duì) CPO 落地、可靠性與靈活性等方面的質(zhì)疑。

  ICC訊  英偉達(dá)在一場(chǎng)“面向千兆瓦級(jí)AI工廠的共封裝硅光交換技術(shù)”的網(wǎng)絡(luò)研討會(huì)上,英偉達(dá)網(wǎng)絡(luò)高級(jí)副總裁Gilad Shainer深入介紹了英偉達(dá)打造AI超級(jí)計(jì)算機(jī)的方法,以及CPO技術(shù)在提升能效和系統(tǒng)可靠性方面所扮演的關(guān)鍵角色。

  CPO破局光互連功耗挑戰(zhàn)

  Gilad Shainer表示,現(xiàn)代AI基礎(chǔ)設(shè)施的核心理念是“數(shù)據(jù)中心即計(jì)算機(jī)”。他強(qiáng)調(diào),AI工作負(fù)載依賴大量計(jì)算單元協(xié)同運(yùn)作,而網(wǎng)絡(luò)正日益成為決定整個(gè)系統(tǒng)能力的關(guān)鍵因素。

  他將AI超級(jí)計(jì)算機(jī)描述為由四大基礎(chǔ)設(shè)施組成:一是Scale-up,通過NVLink將英偉達(dá)H100 GPU互連,形成所謂的“機(jī)架級(jí)GPU”;二是Scale-out,采用Spectrum-X以太網(wǎng)作為端到端網(wǎng)絡(luò)架構(gòu),連接多個(gè)機(jī)架,支持跨數(shù)十萬顆GPU的分布式AI工作負(fù)載;三是上下文內(nèi)存存儲(chǔ),滿足推理階段對(duì)低延遲、高吞吐存儲(chǔ)的需求;四是Scale-across,基于Spectrum-X的技術(shù)方案,當(dāng)單個(gè)站點(diǎn)受電力或物理空間限制時(shí),可將多個(gè)數(shù)據(jù)中心連接成一個(gè)統(tǒng)一的計(jì)算引擎,目標(biāo)是構(gòu)建“千兆瓦級(jí)”AI工廠。

  光互連技術(shù)在其中發(fā)揮著重要作用。不過他指出,隨著每一代帶寬翻倍,光網(wǎng)絡(luò)的功耗也在持續(xù)上升,目前已接近計(jì)算資源總功耗的10%。因此,在電力受限的數(shù)據(jù)中心中,降低光互連功耗可直接轉(zhuǎn)化為更高的有效算力。

  CPO技術(shù)將原本置于外部可插拔光模塊中的光引擎,集成到交換芯片的同一封裝內(nèi)。通過縮短電通道長度并減少信號(hào)轉(zhuǎn)換環(huán)節(jié),英偉達(dá)預(yù)計(jì)可顯著降低功耗并提升信號(hào)質(zhì)量。他提到,當(dāng)前可插拔光模塊功耗約為20-25瓦,而CPO方案可在Scale-out基礎(chǔ)設(shè)施中實(shí)現(xiàn)最高5倍的功耗節(jié)省。

  除能效外,CPO還能減少組件和所需激光器數(shù)量,提升數(shù)據(jù)中心整體可靠性,并延長“首次中斷時(shí)間”(time to first interrupt)。Gilad Shainer表示,英偉達(dá)已為Spectrum-X以太網(wǎng)平臺(tái)和Quantum-X InfiniBand平臺(tái)開發(fā)了支持CPO的交換機(jī),并與生態(tài)合作伙伴共同推進(jìn)封裝工藝、光纖連接方式及液冷設(shè)計(jì)方案。

  正面回應(yīng)規(guī)模部署“質(zhì)疑”

  在問答環(huán)節(jié),Gilad Shainer表示,英偉達(dá)預(yù)計(jì)CPO的部署將于今年啟動(dòng)。目前已宣布三家合作伙伴CoreWeave、Lambda和德克薩斯高級(jí)計(jì)算中心(TACC)將在今年上半年部署基于Quantum-2 InfiniBand平臺(tái)的CPO系統(tǒng)。Spectrum-X以太網(wǎng)平臺(tái)的CPO產(chǎn)品計(jì)劃于今年下半年開始出貨。

  關(guān)于CPO的可靠性,他指出,可插拔光模塊的可靠性問題多源于人為操作,如清潔、插拔、意外觸碰等都容易損壞光模塊。而CPO將光引擎集成到交換機(jī)封裝內(nèi)部,并對(duì)整個(gè)系統(tǒng)進(jìn)行一體化驗(yàn)證,可有效減少灰塵污染和人為操作風(fēng)險(xiǎn),從而提升系統(tǒng)韌性。英偉達(dá)已經(jīng)與合作伙伴打造全系統(tǒng)制造測(cè)試流程,確保部署前整機(jī)100%驗(yàn)證,而非單一組件。

  被問及與臺(tái)積電的合作時(shí),Gilad Shainer強(qiáng)調(diào),雙方共同開發(fā)的共封裝工藝注重可靠性和可測(cè)試性。他還提到,早期CPO嘗試多采用較大的基于MZM的光引擎,而英偉達(dá)則采用基于微環(huán)調(diào)制技術(shù)的小型化光引擎,以適配高密度大端口AI網(wǎng)絡(luò)。此外,英偉達(dá)還開發(fā)了光纖對(duì)準(zhǔn)技術(shù)和高功率激光器,以進(jìn)一步減少所需激光器數(shù)量。

  針對(duì)CPO相比可插拔方案在靈活性方面的劣勢(shì),Gilad Shainer承認(rèn)CPO需預(yù)先選定特定技術(shù),但他稱英偉達(dá)的方案已覆蓋典型數(shù)據(jù)中心內(nèi)部距離,甚至可連接園區(qū)內(nèi)不同建筑,從而減少數(shù)據(jù)中心內(nèi)對(duì)多種光模塊類型的需求。對(duì)于超長距離,如跨城市數(shù)據(jù)中心互連,他仍建議使用傳統(tǒng)可插拔光模塊。

  面對(duì)“按需付費(fèi)”(pay-as-you-go)模式下可插拔光模塊更具成本彈性的質(zhì)疑,Gilad Shainer回應(yīng)稱,AI超級(jí)計(jì)算機(jī)通常以高利用率為目標(biāo),并采用高度優(yōu)化的拓?fù)浣Y(jié)構(gòu),客戶往往會(huì)一次性部署滿配基礎(chǔ)設(shè)施。在此場(chǎng)景下,CPO不僅能降低資本開支(CAPEX)和運(yùn)營支出(OPEX),還能提升系統(tǒng)可靠性。

  基于上述優(yōu)勢(shì),Gilad Shainer認(rèn)為,超大規(guī)模云服務(wù)商會(huì)積極采用CPO。對(duì)于下一代產(chǎn)品的演進(jìn)方向,他表示,主要包括更大端口數(shù)交換機(jī)、更高光連接密度與數(shù)據(jù)吞吐量、新型光纖-交換機(jī)連接技術(shù)、更高密度全液冷機(jī)架等。

內(nèi)容來自:C114通信網(wǎng)
本文地址:http://www.n2software.net//Site/CN/News/2026/02/05/20260205021549149866.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:英偉達(dá)回應(yīng)CPO“質(zhì)疑”,將于今年規(guī)模部署
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問題,請(qǐng)聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right