ICC訊 甲骨文與AMD周四聯(lián)合宣布,AMD最新Instinct MI355X GPU將登陸甲骨文云基礎設施(OCI),為大規(guī)模AI訓練和推理工作負載提供較前代產(chǎn)品2倍以上的性價比優(yōu)勢。OCI將構建由多達131,072塊MI355X GPU加速的zettascale級AI超級計算集群,支持客戶開展規(guī)?;疉I開發(fā)。
OCI執(zhí)行副總裁Mahesh Thiagarajan表示:"我們致力于提供最廣泛的AI基礎設施選擇。AMD加速器與OCI高性能網(wǎng)絡、靈活架構的結合,將滿足客戶對新型智能體應用的訓練推理需求。"該方案采用高吞吐、超低延遲的RDMA集群網(wǎng)絡架構,MI355X GPU計算性能提升近3倍,高頻內存容量增加50%。
AMD數(shù)據(jù)中心解決方案事業(yè)部執(zhí)行副總裁Forrest Norrod指出:"雙方合作始終致力于為客戶提供開放、高效且靈活的解決方案。新一代AMD加速器與Pollara網(wǎng)卡將支持更多AI推理、微調和訓練場景。"
MI355X核心優(yōu)勢
新平臺具備288GB HBM3顯存和8TB/s內存帶寬,支持4位浮點計算(FP4)標準,采用液冷設計實現(xiàn)單機架125千瓦功率密度。每機架部署64塊1400瓦GPU,配合AMD Turin高頻CPU(最高3TB系統(tǒng)內存)實現(xiàn)高效任務調度。客戶可通過AMD開源ROCm軟件棧無縫遷移現(xiàn)有代碼,并利用Pollara智能網(wǎng)卡的先進RoCE功能構建高性能網(wǎng)絡。
(注:RDMA指遠程直接內存訪問技術,RoCE為基于融合以太網(wǎng)的RDMA協(xié)議)