ICC訊 阿里巴巴云正在投資一種新型人工智能,旨在使用與OpenAI的ChatGPT等聊天機(jī)器人不同的方法來更好地模擬現(xiàn)實(shí)世界。
這一轉(zhuǎn)變認(rèn)識(shí)到主要基于文本訓(xùn)練的大語言模型的局限性。開發(fā)者開始更多地關(guān)注基于視頻和真實(shí)物理場景構(gòu)建的“世界模型”。
為了趕上這一趨勢(shì),阿里巴巴領(lǐng)投了生數(shù)科技(ShengShu)20億元人民幣(約2.9億美元)的投資,該公司是AI視頻生成工具Vidu背后的初創(chuàng)企業(yè)。好未來和百度風(fēng)投也參與了此次B輪融資。生數(shù)科技于4月9日宣布了這一消息。
投資背景
這筆投資發(fā)生在大約兩個(gè)月前,當(dāng)時(shí)生數(shù)科技剛剛從啟明創(chuàng)投和其他投資方那里籌集了6億元人民幣。該初創(chuàng)公司拒絕透露其估值。
生數(shù)科技表示,最新融資將用于支持“通用世界模型”的開發(fā),該模型利用人工智能連接兩個(gè)目前相互獨(dú)立的領(lǐng)域:一個(gè)是游戲和AI生成視頻的數(shù)字世界,另一個(gè)是自動(dòng)駕駛和機(jī)器人的物理世界。
成立三年的生數(shù)科技在一份聲明中表示:“生數(shù)科技相信,基于視覺、聽覺和觸覺等多模態(tài)數(shù)據(jù)構(gòu)建的通用世界模型,比大語言模型更自然地捕捉物理世界的工作方式。”
生數(shù)科技創(chuàng)始人朱軍在聲明中補(bǔ)充說:“我們的目標(biāo)是連接感知和行動(dòng)”,讓人工智能系統(tǒng)能夠更好地建模并一致地預(yù)測(cè)現(xiàn)實(shí)世界的行為。
根據(jù)Artificial Analysis的數(shù)據(jù),生數(shù)科技最新發(fā)布的Vidu Q3 Pro模型(1月發(fā)布)在從文本和圖像生成視頻的AI模型中排名前十。該公司在全球范圍內(nèi)推出了Vidu,比OpenAI廣泛提供現(xiàn)已關(guān)閉的Sora工具早了幾個(gè)月。中國短視頻公司快手和字節(jié)跳動(dòng)也發(fā)布了類似的AI視頻生成競爭工具。
世界模型競賽
阿里巴巴擴(kuò)大了對(duì)相關(guān)初創(chuàng)企業(yè)的投資。這家中國科技巨頭和百度風(fēng)投上個(gè)月共同領(lǐng)投了Tripo AI的5000萬美元投資。Tripo AI是一個(gè)利用AI從照片中快速生成數(shù)字3D模型的平臺(tái)。Tripo表示,它也在遠(yuǎn)離語言模型使用的技術(shù),轉(zhuǎn)向基于物理空間的人工智能工具,并正在開發(fā)自己的世界模型。
去年9月,阿里巴巴還領(lǐng)投了PixVerse的6000萬美元投資。PixVerse在今年早些時(shí)候發(fā)布了一個(gè)AI世界模型,允許用戶在視頻生成過程中控制視頻的展開方式。
起家于電商的阿里巴巴還發(fā)布了免費(fèi)的開源AI視頻生成模型,并在2月份發(fā)布了一個(gè)用于驅(qū)動(dòng)機(jī)器人的模型。
生數(shù)科技4月9日表示,它與開發(fā)具身智能(與物理世界互動(dòng)的人形機(jī)器人等系統(tǒng))的公司建立了戰(zhàn)略合作伙伴關(guān)系,應(yīng)用于工業(yè)、商業(yè)和家庭環(huán)境。
未來展望
美國科技雜志《連線》的聯(lián)合創(chuàng)始人Kevin Kelly上個(gè)月在他的Substack上寫道,世界模型對(duì)機(jī)器人技術(shù)至關(guān)重要,因?yàn)樵摷夹g(shù)需要的不只是大語言模型。
Kelly表示,最終,要復(fù)制人類智能,AI需要三樣?xùn)|西:推理能力、對(duì)物理世界的理解以及持續(xù)學(xué)習(xí)能力。他說,雖然用于學(xué)習(xí)類別的AI尚未開發(fā)出來,但基于大語言模型的聊天機(jī)器人已經(jīng)創(chuàng)造了知識(shí)元素,這使得世界模型成為需要突破的關(guān)鍵領(lǐng)域。