ICC訊 2026年1月16日,IFOC訊石光通信大會(huì)·年度論壇于東莞松山湖舉行。海思光電資深產(chǎn)品應(yīng)用總監(jiān)齊鳴發(fā)表了題為《AI智算大規(guī)模光互聯(lián)的挑戰(zhàn)和解決方案》的主題報(bào)告。報(bào)告指出,隨著AI應(yīng)用升級(jí),算力形態(tài)正向大規(guī)模集群演進(jìn),大規(guī)模光互聯(lián)中光鏈路故障與閃斷已成為引發(fā)智算訓(xùn)練中斷的核心癥結(jié)。海思光電打造星云智檢StarSensor方案,對(duì)光鏈路的故障支持分鐘級(jí)檢測(cè)、厘米級(jí)定位等特性,顯著提升智算網(wǎng)絡(luò)的長(zhǎng)期運(yùn)營(yíng)的可靠性。
齊鳴在分享中指出,大規(guī)模集群互聯(lián)對(duì)光鏈路可靠性提出了極高要求。根據(jù)業(yè)界的統(tǒng)計(jì)數(shù)據(jù),集群故障中光鏈路問題占比29%。根據(jù)OTT智算集群開局?jǐn)?shù)據(jù)統(tǒng)計(jì),光鏈路問題中僅不到10%為光模塊本體問題,端面臟污引發(fā)的故障占比達(dá) 53%,成為核心誘因。這一數(shù)據(jù)清晰表明,光鏈路閃斷不等于光模塊故障,導(dǎo)致集群閃斷大部分原因是光鏈路的端面臟污。此類臟污不僅給光鏈路中光的反射帶來多路徑串?dāng)_,同時(shí)也給智算網(wǎng)絡(luò)長(zhǎng)期穩(wěn)定運(yùn)維帶來隱患。
傳統(tǒng)光鏈路故障檢測(cè)辦法包括監(jiān)控光模塊光功率和BER壓測(cè),但這類方式存在顯著局限性:針對(duì)未造成光功率明顯衰減的端面臟污問題,往往難以有效識(shí)別;同時(shí),BER 壓測(cè)不僅耗時(shí)較長(zhǎng),也無法精準(zhǔn)區(qū)分故障根源是光纖臟污還是接口虛插。針對(duì)上述痛點(diǎn),海思光電星云光模塊重磅推出星云智檢(StarSensor)創(chuàng)新檢測(cè)方案。該方案通過周期性發(fā)送調(diào)制信號(hào)到光發(fā)射機(jī),經(jīng)過光鏈路傳輸后,接收端解調(diào)檢測(cè)信號(hào)序列,基于發(fā)射和反射的時(shí)間差測(cè)算位置,基于反射強(qiáng)度評(píng)估臟污程度,實(shí)現(xiàn)了基于光模塊的光鏈路臟污檢測(cè),整個(gè)分析過程僅需要幾分鐘?,F(xiàn)網(wǎng)驗(yàn)證數(shù)據(jù)顯示,相較于傳統(tǒng)光功率檢測(cè)方式,StarSensor 的檢測(cè)有效性提升 3 倍,檢測(cè)耗時(shí)從小時(shí)級(jí)壓縮至分鐘級(jí),大幅提升智算網(wǎng)絡(luò)開局效率。同時(shí),搭載該方案的現(xiàn)網(wǎng)局點(diǎn)在長(zhǎng)期運(yùn)行中,未發(fā)生任何光鏈路相關(guān)中斷事故,充分驗(yàn)證了 StarSensor 的檢測(cè)精度與可靠性。
隨著智算網(wǎng)絡(luò)規(guī)模的持續(xù)擴(kuò)容,光鏈路數(shù)量呈爆發(fā)式增長(zhǎng),傳統(tǒng)人工排障模式已難以匹配高效運(yùn)維需求。海思光電立足二十余年光電技術(shù)積淀,通過系統(tǒng)性技術(shù)重構(gòu)打造出適配智算網(wǎng)絡(luò)的StarMatrix 星云光互聯(lián)解決方案,其獨(dú)家搭載的星云智檢 StarSensor 功能,以分鐘級(jí)檢測(cè)、厘米級(jí)定位的核心優(yōu)勢(shì),有效消除 AI 訓(xùn)練開局隱患,為智算中心的長(zhǎng)穩(wěn)運(yùn)行提供可靠保障。
新聞來源:訊石光通訊網(wǎng)
相關(guān)文章