用戶名: 密碼: 驗(yàn)證碼:

GPU用量減少82%,阿里云研究成果入選SOSP2025

摘要:阿里云提出的GPU池化服務(wù)多模型研究成果入選SOSP2025,其創(chuàng)新系統(tǒng)Aegaeon實(shí)現(xiàn)token級(jí)調(diào)度,大幅提升GPU利用率,核心技術(shù)已落地百煉平臺(tái),顯著降低資源消耗。

  ICC訊 近日,頂級(jí)學(xué)術(shù)會(huì)議SOSP2025在韓國(guó)首爾舉行,本屆會(huì)議僅收錄66篇論文,其中阿里云提出的GPU池化服務(wù)多模型研究成果成功入選,該研究提出多模型混合服務(wù)系統(tǒng)Aegaeon,可大幅提升GPU資源利用率,目前其核心技術(shù)已應(yīng)用在阿里云百煉平臺(tái)。

  SOSP(操作系統(tǒng)原理研討會(huì))由ACMSIGOPS主辦,是計(jì)算機(jī)系統(tǒng)領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議,平均每年收錄的論文數(shù)量?jī)H有數(shù)十篇,被譽(yù)為計(jì)算機(jī)操作系統(tǒng)界的“奧斯卡”,入選論文代表了操作系統(tǒng)和軟件領(lǐng)域最具代表的研究成果。本屆SOSP大會(huì),關(guān)于系統(tǒng)軟件與AI大模型技術(shù)的融合研究成為新的趨勢(shì)。

  全球模型的數(shù)量仍在持續(xù)增長(zhǎng),據(jù)統(tǒng)計(jì),HuggingFace已托管了超100萬個(gè)模型。在真實(shí)服務(wù)場(chǎng)景中,少量熱門模型占據(jù)了總請(qǐng)求的絕大部分,而超過90%的模型則調(diào)用頻率較低。當(dāng)前的事實(shí)標(biāo)準(zhǔn)解決方案是為每個(gè)模型至少預(yù)留一個(gè)推理實(shí)例,這造成了GPU資源的大量浪費(fèi)。

  阿里云百煉團(tuán)隊(duì)在論文中創(chuàng)新性提出多模型混合服務(wù)系統(tǒng)Aegaeon,首次將調(diào)度實(shí)現(xiàn)在token級(jí)別,在每次生成完下一個(gè)token之后,都可通過精確的執(zhí)行時(shí)間預(yù)測(cè)和創(chuàng)新的token級(jí)調(diào)度算法規(guī)劃是否需要切換模型,從而實(shí)現(xiàn)多個(gè)模型混合服務(wù)且滿足延遲要求;通過組件復(fù)用、顯存精細(xì)化管理和KV緩存同步優(yōu)化等全棧技術(shù),Aegaeon將模型切換開銷降低97%,確保了token級(jí)調(diào)度的實(shí)時(shí)性,可支持亞秒級(jí)的模型切換響應(yīng)。據(jù)介紹,Aegaeon系統(tǒng)支持單GPU同時(shí)服務(wù)多達(dá)7個(gè)不同模型,相比現(xiàn)有主流方案提升1.5-9倍的有效吞吐量,實(shí)現(xiàn)2-2.5倍的請(qǐng)求處理能力。

Aegaeon顯著提升GPU利用率

  目前,Aegaeon核心技術(shù)已在阿里云百煉平臺(tái)部署,服務(wù)數(shù)十個(gè)模型的推理,將服務(wù)這些模型所需的GPU數(shù)量減少了82%。

  據(jù)介紹,阿里云百煉平臺(tái)已上線Qwen、Wan、DeepSeek等200多款業(yè)界領(lǐng)先的模型,過去一年,阿里云百煉平臺(tái)的模型調(diào)用量增長(zhǎng)了15倍。

內(nèi)容來自:阿里云
本文地址:http://www.n2software.net//Site/CN/News/2025/10/20/20251020062721292318.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:GPU用量減少82%,阿里云研究成果入選SOSP2025
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問題,請(qǐng)聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right