大模型進化速度超預期 AI視頻生成迎來“GPT時刻”
中證網(wǎng)訊(記者 康曦)2月18日,國海證券發(fā)布研報稱,Sora的推出,體現(xiàn)出大模型進化速度的超預期,這或?qū)⑹峭ㄍ鵄GI(通用人工智能)時代的里程碑。國內(nèi)大模型將受益于海外技術(shù)交流和開源,國產(chǎn)大模型多模態(tài)和通用能力將追趕GPT4-turbo和Sora等。
近日,OpenAI推出全新的文生視頻大模型Sora,AI視頻生成迎來“GPT時刻”。在Open AI公布的48個樣片中,Sora展現(xiàn)出令人驚嘆的視頻生成效果,視頻時長提升至1分鐘,生成的角色表情逼真,還實現(xiàn)了多角度鏡頭切換與流暢分鏡,可展現(xiàn)真實光影、運動和鏡頭移動效果。
Sora是一個擴散Transformer模型,通過采用Diffusion Transformer等技術(shù)處理不同持續(xù)時間、分辨率和比例的視頻/圖像,實現(xiàn)“世界模擬器”,達到理解真實世界的運動和物理能力。
業(yè)內(nèi)人士表示,世界模擬器是AI生成視頻的一種方式,它的成功會帶動視頻生成賽道的發(fā)展,加速視頻生成的創(chuàng)新和成熟。
面對AI視頻生成領域的廣闊前景,國內(nèi)各廠商正加大投入,推動AI視頻生成進入全新時代。字節(jié)跳動于去年11月發(fā)布PixelDance模型,不僅在視頻時長上實現(xiàn)了突破,還可通過描述(純文本)+首幀指導(圖片)+尾幀指導(圖片),生成包含復雜場景和動作的視頻,用上一個視頻片段尾幀為下一個視頻頭幀提供指導思路。
萬興科技于今年年初推出國內(nèi)首個以音視頻為核心的多媒體大模型萬興“天幕”。定位上,萬興“天幕”是音視頻多媒體創(chuàng)作垂類大模型,由視頻、音頻、圖片、語言大模型組成;能力上,萬興“天幕”涵蓋當前市面上語言、音頻、圖像的大模型能力,文生視頻能力是萬興“天幕”的子能力之一;用戶方面,萬興“天幕”面向更細分垂直的市場,包括泛知識、泛營銷、泛娛樂等領域,相關(guān)能力已在海外規(guī)?;逃?。
AI視頻生成賽道前景廣闊。數(shù)據(jù)顯示,截至2023年末,僅國內(nèi)短視頻用戶規(guī)模就已突破10億人。
在業(yè)內(nèi)人士看來,Sora是AGI(通用人工智能)實現(xiàn)的重要里程碑,Sora的出現(xiàn)將全球目光聚焦于視頻生成領域,驗證了視頻為王的趨勢,也進一步驗證了無視頻不傳播的時代,“視頻+大模型”的應用市場空間不斷擴展。
日前,國泰君安證券發(fā)布研報稱,Sora模型推動AI多模態(tài)領域飛躍式發(fā)展,AI創(chuàng)作等相關(guān)領域?qū)⒂瓉砩疃茸兏?,AI賦能范圍進一步擴大,推薦萬興科技、金山辦公、科大訊飛、虹軟科技等標的。