阿里云發(fā)布最強(qiáng)開源模型Qwen2
中證網(wǎng)訊(記者 楊潔)阿里云6月7日宣布,發(fā)布開源模型Qwen2-72B,該模型性能超過美國最強(qiáng)的開源模型Llama3-70B,也超過大多中國閉源大模型。用戶可在魔搭社區(qū)和Hugging Face免費(fèi)下載。阿里云透露,團(tuán)隊(duì)還在訓(xùn)練更大的模型,繼續(xù)探索模型及數(shù)據(jù)的Scaling Law(尺度定律),此外,還將把Qwen2擴(kuò)展成多模態(tài)模型,融入視覺及語音的理解。
據(jù)阿里云通義千問團(tuán)隊(duì)披露,Qwen2系列包含5個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型,Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中Qwen2-57B-A14B為混合專家模型(MoE)。Qwen2所有尺寸模型都使用了GQA(分組查詢注意力)機(jī)制,以便讓用戶體驗(yàn)到GQA帶來的推理加速和顯存占用降低的優(yōu)勢。在中英文之外,模型訓(xùn)練數(shù)據(jù)中增加了27種語言相關(guān)的高質(zhì)量數(shù)據(jù),提升了模型的多語言能力。Qwen2還增大了上下文長度支持,Qwen2-72B-Instruct能夠完美處理128k上下文長度內(nèi)的信息抽取任務(wù)。
阿里云介紹,得益于預(yù)訓(xùn)練數(shù)據(jù)及訓(xùn)練方法的優(yōu)化,相比此前開源的通義千問Qwen1.5,Qwen2實(shí)現(xiàn)了整體性能的代際飛躍。對比當(dāng)前最優(yōu)的開源模型,Qwen2-72B在包括自然語言理解、知識、代碼、數(shù)學(xué)及多語言等多項(xiàng)能力上均顯著超越當(dāng)前領(lǐng)先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。
阿里云CTO周靖人表示:“堅(jiān)持開源開放是阿里云的重要策略,我們希望打造一朵AI時(shí)代最開放的云,讓算力更普惠、讓AI更普及?!睋?jù)了解,通義千問Qwen系列模型在全球總下載量已突破1600萬次。全球開源社區(qū)還出現(xiàn)了超過1500款基于Qwen二次開發(fā)的模型。Qwen系列的72B、110B模型多次登頂HuggingFace的Open LLM Leaderboard開源模型榜單。