首頁 > 產(chǎn)經(jīng)

百度沈抖：面向10萬卡算力集群升級(jí)計(jì)算平臺(tái)能力文心大模型日調(diào)用量超7億次

楊潔 中國證券報(bào)·中證網(wǎng) 2024-09-26 12:39

　　中證網(wǎng)訊（記者楊潔）隨著大模型的參數(shù)規(guī)模越來越大，對(duì)算力的需求呈現(xiàn)指數(shù)級(jí)增長趨勢(shì)。在9月25日召開的2024百度云智大會(huì)上，百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示，大模型領(lǐng)域的著名定律Scaling Law（尺度定律）仍在持續(xù)，這一定律指出，模型性能會(huì)隨著參數(shù)、算力、數(shù)據(jù)集的規(guī)模增加而提高，“很快，就會(huì)有更多10萬卡算力集群出現(xiàn)”。

　　據(jù)沈抖觀察，過去一年，已經(jīng)感受到客戶的模型訓(xùn)練需求猛增。他介紹，“2024年大模型的產(chǎn)業(yè)落地正在加速，目前在千帆大模型平臺(tái)上，文心大模型日均調(diào)用量超過7億次，累計(jì)幫助用戶精調(diào)了3萬個(gè)大模型，開發(fā)出70多萬個(gè)企業(yè)級(jí)應(yīng)用。”

　　大模型訓(xùn)練需求增加，意味著所需要的算力集群規(guī)模越來越大，與此同時(shí)，對(duì)模型推理成本的持續(xù)下降的預(yù)期也越來越高。沈抖表示，這些都對(duì)GPU管理的穩(wěn)定性和有效性提出了更高要求。9月25日，百度升級(jí)AI異構(gòu)計(jì)算平臺(tái)百舸4.0，具備了10萬卡集群部署和管理能力。

　　沈抖介紹，GPU算力集群有三個(gè)特征——極致規(guī)模、極致高密和極致互聯(lián)，建一個(gè)萬卡集群，僅僅是GPU的采購成本就高達(dá)幾十億元。沈抖強(qiáng)調(diào)，構(gòu)建算力資源，并不是簡單地買來GPU，把GPU連接上就好了，而是需要很多技術(shù)，“比如，GPU芯片的型號(hào)更多樣，管理更復(fù)雜；GPU需要執(zhí)行大量并行計(jì)算；數(shù)據(jù)的傳輸量變大、對(duì)速度的要求更高”，他介紹，因此，百舸計(jì)算平臺(tái)需要支持異構(gòu)芯片、高速互聯(lián)、高效存儲(chǔ)。

　　沈抖也表示，管理10萬卡的集群與管理萬卡集群也有著本質(zhì)不同。首先，在物理層面，部署10萬卡規(guī)模的集群，要占據(jù)大概10萬平方米的空間，相當(dāng)于14個(gè)標(biāo)準(zhǔn)足球場的面積，其次，在能耗方面，這些服務(wù)器一天就要消耗大約300萬千瓦時(shí)的電力，相當(dāng)于北京市東城區(qū)一天的居民用電量。10萬卡集群對(duì)于空間和能源的巨大需求，遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)機(jī)房部署方式所能承載的范疇，若考慮跨地域部署機(jī)房，就又在網(wǎng)絡(luò)層面帶來巨大挑戰(zhàn)。此外，十萬卡集群中的GPU故障將會(huì)非常頻繁，有效訓(xùn)練時(shí)長占也將迎來新的挑戰(zhàn)。

　　沈抖介紹，針對(duì)這些難題，百舸4.0已經(jīng)構(gòu)建了十萬卡級(jí)別的超大規(guī)模無擁塞HPN高性能網(wǎng)絡(luò)、10ms級(jí)別超高精度網(wǎng)絡(luò)監(jiān)控，以及面向十萬卡集群的分鐘級(jí)故障恢復(fù)能力?！鞍亵?.0正是為部署十萬卡大規(guī)模集群而設(shè)計(jì)的。今天的百舸4.0，已經(jīng)具備了成熟的十萬卡集群部署和管理能力，就是要突破這些新挑戰(zhàn)，為整個(gè)產(chǎn)業(yè)提供持續(xù)領(lǐng)先的算力平臺(tái)?！鄙蚨墩f。

　　不僅是百度，越來越多的科技巨頭正面向AI大模型需求，提升自身的算力基礎(chǔ)設(shè)施能力。9月初，馬斯克宣布，旗下AI初創(chuàng)公司xAI 打造的超級(jí)AI訓(xùn)練集群Colossus已經(jīng)正式上線，共搭載10萬塊英偉達(dá)H100 GPU加速卡，而在未來幾個(gè)月將再翻倍增加10萬塊GPU。9月19日2024年云棲大會(huì)上，阿里云也表示，以GPU為主的AI算力將是未來計(jì)算范式的主導(dǎo)，阿里云正在從芯片、服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)到散熱、供電、數(shù)據(jù)中心等方面，升級(jí)面向未來的AI基礎(chǔ)設(shè)施。