昆侖萬維天工大模型4.0 o1版正式啟動邀請測試
中證網(wǎng)訊(王珞)11月27日,昆侖萬維正式推出天工大模型4.0 o1版(Skywork o1)。
據(jù)昆侖萬維介紹,Skywork o1是由昆侖萬維集團(tuán)發(fā)布的具有慢思考推理能力的系列模型,是國內(nèi)第一款中文邏輯推理能力的o1模型。不同于現(xiàn)有的復(fù)現(xiàn)OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內(nèi)生了思考、計(jì)劃、反思等能力,同時,該開源模型在標(biāo)準(zhǔn)評測集上,對比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團(tuán)隊(duì)復(fù)現(xiàn)o1的技術(shù)路線,使得初始推理能力較差的基座模型在基準(zhǔn)測試集上成為生態(tài)位SOTA。
此次發(fā)布的Skywork o1包括三款模型,既有回饋開源社區(qū)的開放版本,也有能力更強(qiáng)的專用版本,分別為Skywork o1 Open、Skywork o1 Lite與Skywork o1 Preview。其中,昆侖萬維開源的Skywork o1 Open,在各項(xiàng)數(shù)學(xué)和代碼指標(biāo)上均有大幅提高,將Llama-3.1-8B的性能拉到同生態(tài)位SOTA(超越Qwen-2.5-7B instruct)。同時,8B的Skywork o1 Open解鎖了很多較大量級模型,為推理模型在輕量級設(shè)備上部署提供了可能性。
Skywork o1在邏輯推理任務(wù)上性能的大幅提升得益于天工三階段自研的訓(xùn)練方案。推理反思能力訓(xùn)練方面,通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考、反思和驗(yàn)證數(shù)據(jù),通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型進(jìn)行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。推理能力強(qiáng)化學(xué)習(xí)方面,團(tuán)隊(duì)研發(fā)了最新的適配分步推理強(qiáng)化的Skywork o1 Process Reward Model(PRM)。實(shí)驗(yàn)證明,Skywork-PRM可有效捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對最終答案的影響。結(jié)合自研分步推理強(qiáng)化算法進(jìn)一步加強(qiáng)模型推理和思考能力。推理planning方面,基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實(shí)現(xiàn)和公開,其落地大大提升了模型線上推理能力。
昆侖萬維表示,2024年以來,昆侖萬維天工AI持續(xù)進(jìn)化,陸續(xù)發(fā)布了天工2.0、天工3.0、天工大模型4.0 4o版,以及此次天工大模型4.0 o1版。這不僅是公司貫徹“All in AGI與AIGC”戰(zhàn)略的重要舉措,更是其構(gòu)建AI技術(shù)棧的重要一步。展望未來,公司將繼續(xù)秉持“實(shí)現(xiàn)通用人工智能,讓每個人更好地塑造和表達(dá)自我”的使命,從模型層、應(yīng)用層等全方位、多維度來構(gòu)建公司技術(shù)競爭力和生態(tài)矩陣。