首頁(yè) > 產(chǎn)經(jīng)

阿里云發(fā)布最強(qiáng)開(kāi)源模型Qwen2

楊潔 中國(guó)證券報(bào)·中證網(wǎng) 2024-06-07 12:22

　　中證網(wǎng)訊（記者楊潔）阿里云6月7日宣布，發(fā)布開(kāi)源模型Qwen2-72B，該模型性能超過(guò)美國(guó)最強(qiáng)的開(kāi)源模型Llama3-70B，也超過(guò)大多中國(guó)閉源大模型。用戶(hù)可在魔搭社區(qū)和Hugging Face免費(fèi)下載。阿里云透露，團(tuán)隊(duì)還在訓(xùn)練更大的模型，繼續(xù)探索模型及數(shù)據(jù)的Scaling Law（尺度定律），此外，還將把Qwen2擴(kuò)展成多模態(tài)模型，融入視覺(jué)及語(yǔ)音的理解。

　　據(jù)阿里云通義千問(wèn)團(tuán)隊(duì)披露，Qwen2系列包含5個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型，Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B，其中Qwen2-57B-A14B為混合專(zhuān)家模型（MoE）。Qwen2所有尺寸模型都使用了GQA（分組查詢(xún)注意力）機(jī)制，以便讓用戶(hù)體驗(yàn)到GQA帶來(lái)的推理加速和顯存占用降低的優(yōu)勢(shì)。在中英文之外，模型訓(xùn)練數(shù)據(jù)中增加了27種語(yǔ)言相關(guān)的高質(zhì)量數(shù)據(jù)，提升了模型的多語(yǔ)言能力。Qwen2還增大了上下文長(zhǎng)度支持，Qwen2-72B-Instruct能夠完美處理128k上下文長(zhǎng)度內(nèi)的信息抽取任務(wù)。

　　阿里云介紹，得益于預(yù)訓(xùn)練數(shù)據(jù)及訓(xùn)練方法的優(yōu)化，相比此前開(kāi)源的通義千問(wèn)Qwen1.5，Qwen2實(shí)現(xiàn)了整體性能的代際飛躍。對(duì)比當(dāng)前最優(yōu)的開(kāi)源模型，Qwen2-72B在包括自然語(yǔ)言理解、知識(shí)、代碼、數(shù)學(xué)及多語(yǔ)言等多項(xiàng)能力上均顯著超越當(dāng)前領(lǐng)先的模型，如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。

　　阿里云CTO周靖人表示：“堅(jiān)持開(kāi)源開(kāi)放是阿里云的重要策略，我們希望打造一朵AI時(shí)代最開(kāi)放的云，讓算力更普惠、讓AI更普及?！睋?jù)了解，通義千問(wèn)Qwen系列模型在全球總下載量已突破1600萬(wàn)次。全球開(kāi)源社區(qū)還出現(xiàn)了超過(guò)1500款基于Qwen二次開(kāi)發(fā)的模型。Qwen系列的72B、110B模型多次登頂HuggingFace的Open LLM Leaderboard開(kāi)源模型榜單。