華為超節(jié)點(diǎn)趕超英偉達(dá):駕馭“光”很關(guān)鍵

訊石光通訊網(wǎng) 2026/2/10 15:14:45

  ICC訊   2025年以來,超節(jié)點(diǎn)(SuperPod)作為新的AI算力基礎(chǔ)設(shè)施,不斷成為行業(yè)焦點(diǎn)。觀察者網(wǎng)也曾深度報(bào)道過華為的昇騰384超節(jié)點(diǎn),它通過高速互聯(lián)總線將384顆昇騰芯片連接起來,在超節(jié)點(diǎn)算力規(guī)模、網(wǎng)絡(luò)互聯(lián)帶寬、內(nèi)存總帶寬等多個(gè)指標(biāo)上,趕超了國外廠商的旗艦系統(tǒng)。

  但當(dāng)時(shí)一些討論認(rèn)為,華為是靠堆砌了384顆芯片,才超越了英偉達(dá)72顆芯片,而后很多廠商也跟進(jìn)了超節(jié)點(diǎn)的概念。一時(shí)間,算力行業(yè)掀起了建設(shè)超節(jié)點(diǎn)的熱潮。那回到最初的問題,超節(jié)點(diǎn)就是單純的堆芯片嗎?華為是通過暴力堆砌芯片趕超英偉達(dá)的嗎?超節(jié)點(diǎn)和傳統(tǒng)的計(jì)算集群區(qū)別在哪?

  關(guān)于這些行業(yè)熱點(diǎn)話題,華為計(jì)算產(chǎn)品線營銷運(yùn)作部部長張愛軍近日在一場(chǎng)媒體沙龍上對(duì)觀察者網(wǎng)等媒體做了詳解。他首先認(rèn)為,今天的算力需求遠(yuǎn)未被滿足,無論是大模型進(jìn)入到生產(chǎn)系統(tǒng)中,還是在toC消費(fèi)端,token消耗的數(shù)量都在指數(shù)級(jí)增長,未來中國每日token消耗量可能突破千萬億。

  在一些觀點(diǎn)看來,算力缺口大可以通過大量建設(shè)服務(wù)器集群堆卡來解決。這么說聽起來有一定道理,但真實(shí)情況遠(yuǎn)沒有這么簡單。根據(jù)Meta公布的論文,萬卡集群訓(xùn)練時(shí)算力利用率僅約38%,粗暴堆卡可能會(huì)造成62%的算力浪費(fèi),并且模型訓(xùn)練會(huì)3個(gè)小時(shí)中斷一次。

  這是因?yàn)?,集群網(wǎng)絡(luò)通信已成為當(dāng)前大模型訓(xùn)練和推理的最大挑戰(zhàn)。以DeepSeek這種混合專家模型(MoE)為例,每個(gè)“專家”如果不能有效溝通,NPU就會(huì)由于沒有足夠數(shù)據(jù)計(jì)算而閑置,進(jìn)而形成1+1。

  超節(jié)點(diǎn)就在這種情況下應(yīng)運(yùn)而生,它不是修補(bǔ)式改進(jìn),而是對(duì)傳統(tǒng)計(jì)算架構(gòu)進(jìn)行重構(gòu)。張愛軍對(duì)觀察者網(wǎng)表示,超節(jié)點(diǎn)從傳統(tǒng)以CPU為中心的架構(gòu),變成了全平等互聯(lián),無論是CPU、NPU還是內(nèi)存單元,都不用再經(jīng)過CPU,而是可以平等互聯(lián),提高通信效率,同時(shí)連接計(jì)算單元的“高速公路”也發(fā)生了變化,由全新的協(xié)議和總線能力來支撐設(shè)備間互聯(lián)。

  現(xiàn)在市面上的超節(jié)點(diǎn)越來越多,但并沒有統(tǒng)一標(biāo)準(zhǔn),而張愛軍認(rèn)為,真正的超節(jié)點(diǎn)須具備三個(gè)關(guān)鍵特點(diǎn):一是帶寬夠大,核心要讓計(jì)算不用等待通信;二是有足夠低的時(shí)延,傳統(tǒng)集群很難做到時(shí)延降低;三是形成有效的、邏輯上的單一系統(tǒng),關(guān)鍵在于內(nèi)存能不能統(tǒng)一編址。利用這些技術(shù),超節(jié)點(diǎn)可以讓DeepSeek的256個(gè)“專家”分布到每個(gè)計(jì)算單元上,提升吞吐效率。

  “為什么要有統(tǒng)一內(nèi)存編址的技術(shù)才能真正稱得上超節(jié)點(diǎn)?”他進(jìn)一步對(duì)觀察者網(wǎng)解釋稱,傳統(tǒng)集群的信息傳遞,跟現(xiàn)實(shí)生活中寄快遞的方式比較像,需要做相應(yīng)的轉(zhuǎn)換才能找到下單地址。而超節(jié)點(diǎn)希望像在圖書館里檢索書籍一樣,提前進(jìn)行書籍編址,能快速找到,而且可以變成資源池。如果沒有統(tǒng)一內(nèi)存編址,就不能做到內(nèi)存的池化。如果沒有內(nèi)存池化,計(jì)算單元之間的數(shù)據(jù)快速交換很難做到。如果不能快速交換數(shù)據(jù),計(jì)算效率是很難提升的。這是為什么說做不到統(tǒng)一內(nèi)存編址,超節(jié)點(diǎn)是很難真正高效地運(yùn)行起來的原因之一?!?

  一句話總結(jié),超節(jié)點(diǎn)相比傳統(tǒng)集群最大的優(yōu)勢(shì),是計(jì)算效率的顯著提升。以芯片制程為例,在摩爾定律放緩的情況下,7納米到3納米,可能每代性能提升不超過20%。而超節(jié)點(diǎn)可以將模型算力利用率從30%提升到45%,相當(dāng)于提升了50%,通過資源的高效調(diào)度,在一定程度上可以彌補(bǔ)芯片工藝代差。

  但打造一個(gè)真正的超節(jié)點(diǎn)遠(yuǎn)沒有那么容易。關(guān)注技術(shù)細(xì)節(jié)的人可能會(huì)發(fā)現(xiàn),華為的昇騰384超節(jié)點(diǎn)是由12個(gè)計(jì)算柜和4個(gè)總線柜構(gòu)成,體積龐大,而英偉達(dá)NVL72系統(tǒng)只有一個(gè)機(jī)柜,為什么英偉達(dá)不連接更多機(jī)柜,進(jìn)而連接更多芯片?

  核心在于超節(jié)點(diǎn)架構(gòu)不同,英偉達(dá)采用的全銅線架構(gòu),傳遞的是電信號(hào),而華為將光通信技術(shù)應(yīng)用于超節(jié)點(diǎn),采用超高速光模塊連接。“如果用電的方式,高速信號(hào)基本只能在一個(gè)機(jī)柜里兩到五米傳送,這也是為什么很多業(yè)界的超節(jié)點(diǎn)只能在一個(gè)機(jī)柜里面提供。為什么華為可以跳出單個(gè)機(jī)柜限制,規(guī)模商用384個(gè)芯片互聯(lián),未來可以支持8192個(gè)芯片互聯(lián),核心是我們用了光的技術(shù)?!睆垚圮妼?duì)觀察者網(wǎng)表示。

  但“光”并不好駕馭。光模塊成本高,也比較嬌慣,如果有灰塵,有各種各樣的溫度變化,容易發(fā)生閃斷、系統(tǒng)不穩(wěn)定,要做的像電一樣可靠,像光一樣長度,難度很大。

  “我們是怎么做到的?一句話,系統(tǒng)化創(chuàng)新,華為可以做自己的芯片,有自己光的器件能力,有自己的底層協(xié)議,在過去光通信上構(gòu)建了工程能力,我們做到了借助全光互聯(lián)提供超節(jié)點(diǎn)。為什么其它廠商做不到?就是因?yàn)樗麄兓蛟S掌握了某些單點(diǎn)技術(shù),但很難像華為一樣有系統(tǒng)化能力,這也得益于過去華為一直在通信領(lǐng)域深厚的積累。過去20年,我們?cè)诠馍厦媸侨虻谝坏募夹g(shù)積累。”張愛軍對(duì)觀察者網(wǎng)說道。

  華為不僅在做智算超節(jié)點(diǎn),也在發(fā)展通算超節(jié)點(diǎn)。去年的華為全聯(lián)接大會(huì)上,華為輪值董事長徐直軍發(fā)布了基于鯤鵬950處理器的TaiShan 950超節(jié)點(diǎn),這是全球首個(gè)通用計(jì)算超節(jié)點(diǎn),將在2026年一季度上市。他當(dāng)時(shí)表示,TaiShan 950加上分布式GaussDB數(shù)據(jù)庫,將徹底取代各種應(yīng)用場(chǎng)景的大型機(jī)和小型機(jī),以及Oracle的Exadata數(shù)據(jù)庫服務(wù)器。

  “大家過去買服務(wù)器,主要關(guān)注CPU的主頻和核數(shù)。但今天大量的場(chǎng)景通過調(diào)整主頻和核數(shù)是難以解決的,核心原因是因?yàn)槟柖梢呀?jīng)走到頭了,物理的效能很難,堆再多的核、提升再高的主頻,很難把計(jì)算效能提升上去。有一條新路,通過通信的能力把多核能夠連接起來,形成有效的業(yè)務(wù)系統(tǒng),同樣給通用計(jì)算提供相應(yīng)的能力。核心和智算是一樣的,提供超大帶寬、超低時(shí)延、進(jìn)行統(tǒng)一內(nèi)存編址。”張愛軍說道。

  在華為的思考中,無論是智算還是通算超節(jié)點(diǎn),乃至像Atlas 950 SuperCluster這樣數(shù)十萬卡的巨型超節(jié)點(diǎn)集群,核心是要讓大量服務(wù)器像一臺(tái)計(jì)算機(jī)一樣工作,由此華為構(gòu)建了新型互聯(lián)協(xié)議靈衢UB(UnifiedBus),并將靈衢2.0規(guī)范開放。

  “靈衢是構(gòu)建超節(jié)點(diǎn)的核心能力,華為把它完全開放出來,讓業(yè)界所有的人都可以獲取到這個(gè)技術(shù)?;A(chǔ)協(xié)議有600頁,是所有廠商中提供的最詳細(xì)、最完整的能力。通過對(duì)靈衢2.0協(xié)議的開放,產(chǎn)業(yè)界伙伴能夠借助這個(gè)技術(shù)打造自己的超節(jié)點(diǎn)。我們希望與產(chǎn)業(yè)界共創(chuàng),能夠形成一個(gè)繁榮的產(chǎn)業(yè)生態(tài),希望這些新的能力、新的技術(shù)不僅僅華為在使用,而是整個(gè)產(chǎn)業(yè)鏈一起來構(gòu)建?!睆垚圮姳硎?。


  超節(jié)點(diǎn)足夠火熱,但支撐其運(yùn)行的不只有芯片、光模塊等硬件,還有大量軟件生態(tài),比如異構(gòu)計(jì)算架構(gòu)CANN、操作系統(tǒng)openEuler、數(shù)據(jù)庫openGauss、AI框架MindSpore等等。

  生態(tài)需要產(chǎn)業(yè)共建,華為一直堅(jiān)持軟件開源開放。張愛軍表示,“目前鯤鵬注冊(cè)開發(fā)者有380萬,昇騰有將近400萬開發(fā)者。2025年8月,我們把CANN完全開源開放,openEuler也是業(yè)界第一個(gè)面向超節(jié)點(diǎn)的開源操作系統(tǒng)。特別是CANN,我們從最底層的運(yùn)營時(shí),到開發(fā)語言、模版庫算子庫等,完整地開源給產(chǎn)業(yè)界,現(xiàn)在已經(jīng)有很多開發(fā)者基于昇騰CANN的能力,自己開發(fā)算子,來面向它的業(yè)務(wù)場(chǎng)景進(jìn)行創(chuàng)新。AI 時(shí)代的迭代速度遠(yuǎn)超以往,單打獨(dú)斗很難跟上節(jié)奏,協(xié)同共創(chuàng)、開放共生才能共贏未來?!?

新聞來源:觀察者網(wǎng)

相關(guān)文章