百度沈抖:面向10萬卡算力集群升級(jí)計(jì)算平臺(tái)能力 文心大模型日調(diào)用量超7億次
中證網(wǎng)訊(記者 楊潔)隨著大模型的參數(shù)規(guī)模越來越大,對(duì)算力的需求呈現(xiàn)指數(shù)級(jí)增長趨勢(shì)。在9月25日召開的2024百度云智大會(huì)上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示,大模型領(lǐng)域的著名定律Scaling Law(尺度定律)仍在持續(xù),這一定律指出,模型性能會(huì)隨著參數(shù)、算力、數(shù)據(jù)集的規(guī)模增加而提高,“很快,就會(huì)有更多10萬卡算力集群出現(xiàn)”。
據(jù)沈抖觀察,過去一年,已經(jīng)感受到客戶的模型訓(xùn)練需求猛增。他介紹,“2024年大模型的產(chǎn)業(yè)落地正在加速,目前在千帆大模型平臺(tái)上,文心大模型日均調(diào)用量超過7億次,累計(jì)幫助用戶精調(diào)了3萬個(gè)大模型,開發(fā)出70多萬個(gè)企業(yè)級(jí)應(yīng)用。”
大模型訓(xùn)練需求增加,意味著所需要的算力集群規(guī)模越來越大,與此同時(shí),對(duì)模型推理成本的持續(xù)下降的預(yù)期也越來越高。沈抖表示,這些都對(duì)GPU管理的穩(wěn)定性和有效性提出了更高要求。9月25日,百度升級(jí)AI異構(gòu)計(jì)算平臺(tái)百舸4.0,具備了10萬卡集群部署和管理能力。
沈抖介紹,GPU算力集群有三個(gè)特征——極致規(guī)模、極致高密和極致互聯(lián),建一個(gè)萬卡集群,僅僅是GPU的采購成本就高達(dá)幾十億元。沈抖強(qiáng)調(diào),構(gòu)建算力資源,并不是簡單地買來GPU,把GPU連接上就好了,而是需要很多技術(shù),“比如,GPU芯片的型號(hào)更多樣,管理更復(fù)雜;GPU需要執(zhí)行大量并行計(jì)算;數(shù)據(jù)的傳輸量變大、對(duì)速度的要求更高”,他介紹,因此,百舸計(jì)算平臺(tái)需要支持異構(gòu)芯片、高速互聯(lián)、高效存儲(chǔ)。
沈抖也表示,管理10萬卡的集群與管理萬卡集群也有著本質(zhì)不同。首先,在物理層面,部署10萬卡規(guī)模的集群,要占據(jù)大概10萬平方米的空間,相當(dāng)于14個(gè)標(biāo)準(zhǔn)足球場的面積,其次,在能耗方面,這些服務(wù)器一天就要消耗大約300萬千瓦時(shí)的電力,相當(dāng)于北京市東城區(qū)一天的居民用電量。10萬卡集群對(duì)于空間和能源的巨大需求,遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)機(jī)房部署方式所能承載的范疇,若考慮跨地域部署機(jī)房,就又在網(wǎng)絡(luò)層面帶來巨大挑戰(zhàn)。此外,十萬卡集群中的GPU故障將會(huì)非常頻繁,有效訓(xùn)練時(shí)長占也將迎來新的挑戰(zhàn)。
沈抖介紹,針對(duì)這些難題,百舸4.0已經(jīng)構(gòu)建了十萬卡級(jí)別的超大規(guī)模無擁塞HPN高性能網(wǎng)絡(luò)、10ms級(jí)別超高精度網(wǎng)絡(luò)監(jiān)控,以及面向十萬卡集群的分鐘級(jí)故障恢復(fù)能力?!鞍亵?.0正是為部署十萬卡大規(guī)模集群而設(shè)計(jì)的。今天的百舸4.0,已經(jīng)具備了成熟的十萬卡集群部署和管理能力,就是要突破這些新挑戰(zhàn),為整個(gè)產(chǎn)業(yè)提供持續(xù)領(lǐng)先的算力平臺(tái)?!鄙蚨墩f。
不僅是百度,越來越多的科技巨頭正面向AI大模型需求,提升自身的算力基礎(chǔ)設(shè)施能力。9月初,馬斯克宣布,旗下AI初創(chuàng)公司xAI 打造的超級(jí)AI訓(xùn)練集群Colossus已經(jīng)正式上線,共搭載10萬塊英偉達(dá)H100 GPU加速卡,而在未來幾個(gè)月將再翻倍增加10萬塊GPU。9月19日2024年云棲大會(huì)上,阿里云也表示,以GPU為主的AI算力將是未來計(jì)算范式的主導(dǎo),阿里云正在從芯片、服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)到散熱、供電、數(shù)據(jù)中心等方面,升級(jí)面向未來的AI基礎(chǔ)設(shè)施。