背景
超大規(guī)模數(shù)據(jù)中心運營商和金融機構(gòu)正競相搭建私有及AI數(shù)據(jù)中心,這使得密集型光互聯(lián)技術(shù)和高性能光模塊的應用達到了新高度。由于涉及成千上萬的可插拔光模塊,每一次“疑似故障”都意味著預算、時間和可持續(xù)性方面的損失。
挑 戰(zhàn)
本文要講述的,是一個同時困擾著某超大規(guī)模數(shù)據(jù)中心運營商和一家國際金融機構(gòu)的問題。在搭建數(shù)據(jù)中心的過程中,這兩家都發(fā)現(xiàn)了一個令人擔憂的現(xiàn)象:新部署的光模塊中,至少有5%被初步判定為無法使用,但重新測試后卻發(fā)現(xiàn),其中僅有約1%是真的存在缺陷。這就暴露出一個問題:其實有大量被擱置的光模塊實際上還能用。
由于沒有快速且規(guī)范的光模塊驗證方法,團隊只能謹慎行事,把好多模塊都當作故障品處理。這么一來,大量資金被“隔離”庫存套住了,更換成本也蹭蹭往上漲,供應商管理也變得復雜起來,特別是面對各種不同規(guī)格和供應商的時候,更是讓人頭疼。
保修索賠也是個老大難問題。交易量大、供應商多,模塊類型又五花八門,想要證明故障、明確責任,那真是難上加難。而且,缺乏一致的測試數(shù)據(jù),決策者們根本沒法對供應商的故障率提出質(zhì)疑,也沒法談更好的條件,更別提優(yōu)化未來的采購策略了。
解決方案
這兩家組織都求助于EXFO的iOptics應用程序,旨在為光模塊驗證帶來結(jié)構(gòu)性和透明度。iOptics集成在EXFO的高速測試平臺中,能對各種光模塊(包括專用的NVIDIA RHS OSFP光模塊)進行自動化、符合MSA標準的測試。
EXFO與這兩家客戶密切合作,根據(jù)這些AI數(shù)據(jù)中心環(huán)境的特殊性,進一步調(diào)整了功能和驗證標準。iOptics可在幾分鐘內(nèi)驗證疑似“故障”的模塊,并生成一致的測試報告,為工程和運營團隊提供了一種清晰、可重復的方法,以便將真正存在缺陷的光模塊與可安全返回庫存的光模塊區(qū)分開來。
通過與EXFO Exchange實現(xiàn)集成,所有iOptics的測試結(jié)果都能直接上傳到云端環(huán)境。這樣一來,報告生成變得高效又簡潔,團隊可以輕松按照供應商、部件編號以及故障類型來對數(shù)據(jù)進行細致分析,把每一次單獨的測試結(jié)果,整合成對整個設備群體健康狀況的全面洞察。
最終,團隊能夠深入掌握光模塊的“健康狀態(tài)”,包括不同類型和供應商的光模塊故障率,從而做出更加明智、更有依據(jù)的商業(yè)決策。
表1. 從“故障”到正??捎茫和ㄟ^使用iOptics對每一個疑似故障光模塊進行驗證,客戶發(fā)現(xiàn)其“故障”池中的大多數(shù)模塊實際上性能良好。他們沒有直接更換這些模塊,而是將保修索賠集中在真正存在缺陷的模塊上,讓性能良好的光模塊重新投入使用,并減少了浪費,從而提高了每個AI數(shù)據(jù)中心建設的投資回報率。
結(jié) 論

隨著超大規(guī)模數(shù)據(jù)中心和金融機構(gòu)不斷擴大私有集群和AI集群規(guī)模,光模塊已然成為關(guān)鍵組件,在成本中也占據(jù)了相當大的比重。借助iOptics和EXFO Exchange,各組織就能對可插拔光模塊進行精準驗證,用實實在在的數(shù)據(jù)為保修索賠提供有力支撐,還能根據(jù)真實的故障模式來制定采購決策,而不是僅憑主觀猜測。最終,這不僅為性能表現(xiàn)打下了堅實基礎(chǔ),也讓企業(yè)的盈利狀況更加可觀。