中科院自動化所發(fā)布通用AI平臺 可實現(xiàn)圖文音“無縫轉(zhuǎn)換”
新華社北京7月12日電 從檢索圖像、描述視頻,到吟詩作賦、續(xù)寫文章,再到識別語音、雙語翻譯,虛擬人“小初”日前亮相2021世界人工智能大會,展示了圖、文、音三種模態(tài)的智能轉(zhuǎn)換和生成。
“小初”具備這樣的能力,得益于一個名為“紫東太初”的跨模態(tài)通用人工智能平臺。該平臺由中國科學(xué)院自動化研究所研發(fā),基于國產(chǎn)化基礎(chǔ)軟硬件,僅采用一個大模型,即可“鍛煉”人工智能在視覺、文本、語音多個場景的理解能力。
中科院自動化所所長徐波介紹,“大數(shù)據(jù)+大模型+多模態(tài)”將改變當(dāng)前單一模型對應(yīng)單一任務(wù)的人工智能研發(fā)范式,多模態(tài)大模型將成為不同領(lǐng)域的共性平臺技術(shù),是邁向通用人工智能的重要路徑探索。
“‘紫東太初’實現(xiàn)了圖、文、音三種模態(tài)的統(tǒng)一表達,以圖生音,以音生圖,將開拓AI在視頻配音、語音播報、標(biāo)題摘要、海報創(chuàng)作等更多元場景的應(yīng)用。”徐波說。
據(jù)了解,中科院自動化所構(gòu)建了中文預(yù)訓(xùn)練模型、語音預(yù)訓(xùn)練模型、視覺預(yù)訓(xùn)練模型,并通過跨模態(tài)語義關(guān)聯(lián),構(gòu)建了三模態(tài)預(yù)訓(xùn)練大模型。