中科院自動化所發(fā)布通用AI平臺可實現(xiàn)圖文音“無縫轉(zhuǎn)換”

董瑞豐新華社2021-07-12 20:02

　　新華社北京7月12日電從檢索圖像、描述視頻，到吟詩作賦、續(xù)寫文章，再到識別語音、雙語翻譯，虛擬人“小初”日前亮相2021世界人工智能大會，展示了圖、文、音三種模態(tài)的智能轉(zhuǎn)換和生成。

　　“小初”具備這樣的能力，得益于一個名為“紫東太初”的跨模態(tài)通用人工智能平臺。該平臺由中國科學(xué)院自動化研究所研發(fā)，基于國產(chǎn)化基礎(chǔ)軟硬件，僅采用一個大模型，即可“鍛煉”人工智能在視覺、文本、語音多個場景的理解能力。

　　中科院自動化所所長徐波介紹，“大數(shù)據(jù)+大模型+多模態(tài)”將改變當前單一模型對應(yīng)單一任務(wù)的人工智能研發(fā)范式，多模態(tài)大模型將成為不同領(lǐng)域的共性平臺技術(shù)，是邁向通用人工智能的重要路徑探索。

　　“‘紫東太初’實現(xiàn)了圖、文、音三種模態(tài)的統(tǒng)一表達，以圖生音，以音生圖，將開拓AI在視頻配音、語音播報、標題摘要、海報創(chuàng)作等更多元場景的應(yīng)用�！毙觳ㄕf。

　　據(jù)了解，中科院自動化所構(gòu)建了中文預(yù)訓(xùn)練模型、語音預(yù)訓(xùn)練模型、視覺預(yù)訓(xùn)練模型，并通過跨模態(tài)語義關(guān)聯(lián)，構(gòu)建了三模態(tài)預(yù)訓(xùn)練大模型。

今日聚焦