中證網(wǎng)
返回首頁(yè)

搖錢(qián)樹(shù)還是吞金獸? 大模型考驗(yàn)AI數(shù)據(jù)服務(wù)商

周春媚 證券時(shí)報(bào)

  “大模型對(duì)數(shù)據(jù)采集、標(biāo)注等方面的要求都非常高。以前大家還在卷價(jià)格,但現(xiàn)在處理一條數(shù)據(jù),成本甚至能達(dá)到幾百塊錢(qián)!痹谝粓(chǎng)大模型語(yǔ)料數(shù)據(jù)推介會(huì)中,北京晴數(shù)智慧科技有限公司(下稱(chēng)“晴數(shù)智慧”)的數(shù)據(jù)專(zhuān)家喬天說(shuō)道。

  作為一家數(shù)據(jù)服務(wù)公司,晴數(shù)智慧主要為人工智能研發(fā)企業(yè)和科研機(jī)構(gòu)提供高質(zhì)量的AI訓(xùn)練數(shù)據(jù)集及專(zhuān)業(yè)咨詢(xún)服務(wù)。喬天的感受并不是個(gè)例。證券時(shí)報(bào)記者采訪多家AI數(shù)據(jù)服務(wù)商發(fā)現(xiàn),今年以來(lái)大模型的火熱,為一批AI數(shù)據(jù)服務(wù)商帶來(lái)了更多訂單需求,卻也極大提升了數(shù)據(jù)產(chǎn)品和服務(wù)的成本。

  大模型時(shí)代,機(jī)遇與挑戰(zhàn)并存。布局大模型是為未來(lái)種下一棵確定的“搖錢(qián)樹(shù)”,還是在養(yǎng)一只“錢(qián)”景不明的“吞金獸”?隨著三季報(bào)盡數(shù)出爐,部分上市公司的業(yè)績(jī)也透露出一個(gè)信號(hào):AI數(shù)據(jù)服務(wù)商業(yè)績(jī)承壓,正面臨成本考驗(yàn)。

  收益——

  需求井噴帶來(lái)更多訂單

  算力、數(shù)據(jù)、算法,被稱(chēng)為支撐AI大模型的三駕馬車(chē)。在今年的世界人工智能大會(huì)上,中信智庫(kù)專(zhuān)家委員會(huì)主任、中信建投證券研究所所長(zhǎng)武超則表示,一個(gè)模型的好壞,20%由算法決定,80%由數(shù)據(jù)質(zhì)量決定,未來(lái)高質(zhì)量的數(shù)據(jù)將是提升模型性能的關(guān)鍵。

  訓(xùn)練大模型需要大量高質(zhì)量的數(shù)據(jù)。如果將大模型比作一個(gè)學(xué)習(xí)者,那唯有提供優(yōu)質(zhì)的“學(xué)習(xí)材料”,才能讓其更有效地掌握知識(shí),提升智力水平。隨著預(yù)訓(xùn)練大模型技術(shù)的發(fā)展,對(duì)數(shù)據(jù)的質(zhì)量和數(shù)量的要求也越來(lái)越高。根據(jù)德勤預(yù)測(cè),2027年AI預(yù)訓(xùn)練數(shù)據(jù)服務(wù)的市場(chǎng)規(guī)模有望達(dá)到160億元,5年復(fù)合增速為28.9%。

  而且,目前大模型加速應(yīng)用于千行百業(yè),對(duì)于垂直領(lǐng)域高質(zhì)量數(shù)據(jù)集的需求更是呈現(xiàn)井噴的狀態(tài)。記者梳理發(fā)現(xiàn),A股主要的AI數(shù)據(jù)服務(wù)公司最近一段時(shí)間紛紛宣布,已與大模型公司或科研機(jī)構(gòu)達(dá)成了合作。

  比如,國(guó)內(nèi)AI訓(xùn)練數(shù)據(jù)龍頭海天瑞聲近期宣布與北京智源人工智能研究院正式簽署戰(zhàn)略合作協(xié)議,在大模型數(shù)據(jù)處理、大模型評(píng)測(cè)、數(shù)據(jù)集研發(fā)、人工智能標(biāo)準(zhǔn)研制等方面開(kāi)展合作。拓爾思日前在投資者互動(dòng)平臺(tái)表示,公司已與人工智能企業(yè)和國(guó)家級(jí)實(shí)驗(yàn)室簽訂銷(xiāo)售合同,為其提供高質(zhì)量、多元化的數(shù)據(jù),作為大模型預(yù)訓(xùn)練數(shù)據(jù)集。

  “我們的一個(gè)明顯感受是,大模型在場(chǎng)景端實(shí)現(xiàn)了真正的爆發(fā)!鄙虾(shù)庫(kù)科技首席科技官曹峰在接受記者采訪時(shí)說(shuō)。作為一家數(shù)據(jù)科技公司,數(shù)庫(kù)科技在金融及產(chǎn)業(yè)領(lǐng)域積累了龐大的數(shù)據(jù)產(chǎn)品與系統(tǒng)服務(wù)。曹峰告訴記者,如今客戶(hù)會(huì)基于大模型的能力提出許多以往技術(shù)達(dá)不到的需求,例如對(duì)現(xiàn)有研報(bào)和公告進(jìn)行深度解析,將對(duì)上市公司調(diào)研的訪談內(nèi)容形成文字并自動(dòng)提取要點(diǎn)等等。

  場(chǎng)景應(yīng)用的多元化以及信息加工的深度化,都意味著更多和更復(fù)雜的數(shù)據(jù)需求。據(jù)介紹,這些數(shù)據(jù)有些需要借助大模型來(lái)生產(chǎn),有些則是作為垂直領(lǐng)域大模型的訓(xùn)練語(yǔ)料或者生成內(nèi)容時(shí)的參考資料。

  成本——

  算力與人力開(kāi)銷(xiāo)水漲船高

  雖然大模型橫空出世以前,AI數(shù)據(jù)服務(wù)商已經(jīng)積累了不少成熟的數(shù)據(jù)產(chǎn)品,然而很多并不契合訓(xùn)練大模型的要求!按竽P凸揪拖駨N師,數(shù)據(jù)服務(wù)商就像菜農(nóng),廚師下單的一些‘食材’,是菜農(nóng)之前沒(méi)有見(jiàn)過(guò)的。”財(cái)經(jīng)信息服務(wù)商飛迪科技創(chuàng)始人丘慧慧向記者做了一個(gè)生動(dòng)的比喻。

  “廚師”提出了定制化的、更高端的食材需求,“菜農(nóng)”只能投入更多的精力、花費(fèi)更高的成本去制作。這帶來(lái)的一個(gè)直觀影響,就是數(shù)據(jù)產(chǎn)品和服務(wù)的成本變高了。

  具體是哪些地方需要花更多的錢(qián)呢?一名人工智能研究人員告訴記者,更高的成本主要體現(xiàn)在兩個(gè)方面——算力和人力。算力方面,由于大模型需對(duì)數(shù)據(jù)進(jìn)行更深度、精細(xì)的挖掘,離不開(kāi)更強(qiáng)大的算力支持,數(shù)據(jù)服務(wù)商往往需要租賃或者采購(gòu)更多的芯片、顯卡等硬件資源。

  人力方面,在過(guò)去相當(dāng)長(zhǎng)的一段時(shí)間里,AI數(shù)據(jù)服務(wù),尤其是數(shù)據(jù)標(biāo)注服務(wù)被視為勞動(dòng)密集型產(chǎn)業(yè),是臟活、苦活、低附加值的活。以數(shù)據(jù)標(biāo)注為例,一些科技大廠和數(shù)據(jù)服務(wù)商常常在經(jīng)濟(jì)欠發(fā)達(dá)的地區(qū)設(shè)立數(shù)據(jù)標(biāo)注團(tuán)隊(duì),助力當(dāng)?shù)厝罕娋蜆I(yè)的同時(shí)降低人力成本。然而在大模型時(shí)代,數(shù)據(jù)質(zhì)量要求大大提升,數(shù)據(jù)處理難度變大,過(guò)往依賴(lài)低成本勞動(dòng)力、“價(jià)低走量”的模式不再成立。

  “以前中專(zhuān)生或高中生就可以滿(mǎn)足數(shù)據(jù)標(biāo)注的要求,如今需要招聘大學(xué)生,甚至是碩士生、博士生,處理指定行業(yè)的垂直類(lèi)數(shù)據(jù)。”一名AI數(shù)據(jù)服務(wù)商向記者表示。據(jù)媒體報(bào)道,一家頭部大模型廠商建立的數(shù)據(jù)標(biāo)注基地,第一批標(biāo)注員的本科率達(dá)到了100%。毫無(wú)疑問(wèn),至少在現(xiàn)階段,大模型讓數(shù)據(jù)標(biāo)注員的學(xué)歷卷起來(lái)了,人力成本自然也水漲船高。

  除此以外,將數(shù)據(jù)“喂”給大模型之前可能需要對(duì)其進(jìn)行初加工和預(yù)處理,需要搭建新的平臺(tái)。對(duì)于AI數(shù)據(jù)服務(wù)商而言,則需要布局?jǐn)?shù)據(jù)存儲(chǔ)和處理的硬件設(shè)備,同時(shí)也必然伴隨著更多算法工程師的人力投入。而且在大模型浪潮下,一些積累了高質(zhì)量行業(yè)數(shù)據(jù)的數(shù)據(jù)商已經(jīng)不滿(mǎn)足于提供數(shù)據(jù)服務(wù),而是自己下場(chǎng)搭建行業(yè)大模型——而這則是更大的一筆投資。

  因此,布局大模型注定是一項(xiàng)“燒錢(qián)”的業(yè)務(wù)。反映在二級(jí)市場(chǎng)上,多家開(kāi)展數(shù)據(jù)業(yè)務(wù)的A股上市公司發(fā)布了定增募資方案,以滿(mǎn)足大模型的研發(fā)投入。6月,海天瑞聲發(fā)布了向特定對(duì)象發(fā)行A股股票預(yù)案,擬募資不超過(guò)7.90億元,用于AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)項(xiàng)目、數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項(xiàng)目;7月,星環(huán)科技發(fā)布了向特定對(duì)象發(fā)行A股股票預(yù)案,擬募資不超過(guò)15.21億元,用于數(shù)據(jù)分析大模型建設(shè)項(xiàng)目、智能量化投研一體化平臺(tái)建設(shè)項(xiàng)目等;8月,拓爾思發(fā)布了向特定對(duì)象發(fā)行股票預(yù)案,擬募集資金不超過(guò)18.45億元,用于拓天行業(yè)大模型研發(fā)及AIGC應(yīng)用產(chǎn)業(yè)化項(xiàng)目。

  考驗(yàn)——

  AI數(shù)據(jù)服務(wù)商業(yè)績(jī)普遍承壓

  今年以來(lái)大模型持續(xù)火熱,點(diǎn)燃了一二級(jí)市場(chǎng)的投資熱情,但市場(chǎng)亦有質(zhì)疑的聲音,擔(dān)憂(yōu)高額的投資能否產(chǎn)生相應(yīng)的回報(bào)。值得注意的是,在海天瑞聲和星環(huán)科技發(fā)布定增募資預(yù)案后,兩家公司均收到了監(jiān)管部門(mén)的問(wèn)詢(xún)函,要求就募資的必要性、公司的現(xiàn)有業(yè)務(wù)及相關(guān)市場(chǎng)前景等問(wèn)題進(jìn)行具體說(shuō)明。

  海天瑞聲9月對(duì)問(wèn)詢(xún)函的回復(fù)中提到,目前已面世的大模型產(chǎn)品以通用大語(yǔ)言模型為主,垂直領(lǐng)域及多模態(tài)領(lǐng)域的大模型數(shù)量仍然較少,數(shù)據(jù)需求尚未充分釋放。鑒于公司下游大模型相關(guān)客戶(hù)的產(chǎn)品尚處于首代產(chǎn)品發(fā)布初期或研發(fā)階段,市場(chǎng)尚未大范圍應(yīng)用,相關(guān)數(shù)據(jù)需求將在產(chǎn)品投放市場(chǎng)后進(jìn)一步釋放,公司大模型業(yè)務(wù)相關(guān)收入未來(lái)有望進(jìn)一步提升。

  星環(huán)科技9月對(duì)問(wèn)詢(xún)函的回復(fù)中提到,基于當(dāng)前人工智能行業(yè)的發(fā)展趨勢(shì)以及市場(chǎng)競(jìng)爭(zhēng)狀況,公司若不開(kāi)展大模型相關(guān)研發(fā),未來(lái)可能在相關(guān)領(lǐng)域無(wú)法繼續(xù)維持市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)。

  在新技術(shù)浪潮滾滾而來(lái)時(shí),每一個(gè)人都害怕被潮流拋棄,因而加速布局新的業(yè)績(jī)?cè)鲩L(zhǎng)點(diǎn)。然而,從三季度財(cái)務(wù)報(bào)表來(lái)看,AI數(shù)據(jù)服務(wù)商的業(yè)績(jī)普遍面臨不小的壓力。

  記者還注意到,海天瑞聲于10月25日發(fā)布了定增調(diào)整方案,募資額由7.90億元下降至6.66億元,原計(jì)劃投向數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項(xiàng)目的擬投入募資金額縮水23.51%,原計(jì)劃投入AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)項(xiàng)目的擬投入募資金額縮水7.38%。

  AI數(shù)據(jù)服務(wù)商業(yè)績(jī)承壓,押注大模型會(huì)否是一場(chǎng)危險(xiǎn)的豪賭?這個(gè)問(wèn)題或許還問(wèn)得太早。一名券商人士向記者分析,搶占大模型商業(yè)化應(yīng)用必然面臨高額的投入,但相關(guān)產(chǎn)業(yè)目前還在發(fā)展的初期,大模型尚需要時(shí)間下沉到更多的應(yīng)用場(chǎng)景中,數(shù)據(jù)需求釋放也不是一朝一夕的事,無(wú)法以現(xiàn)階段的營(yíng)收數(shù)據(jù)判斷未來(lái)的情況。

  “做數(shù)據(jù)本身就是一項(xiàng)長(zhǎng)跑,數(shù)據(jù)產(chǎn)業(yè)是一個(gè)長(zhǎng)周期行業(yè),需要提前布局和一些耐心。”晴數(shù)智慧創(chuàng)始人張晴晴說(shuō)。她告訴記者,公司過(guò)去一直聚焦對(duì)話(huà)式的場(chǎng)景,積累了很多高質(zhì)量的語(yǔ)音數(shù)據(jù),其中就包括多說(shuō)話(huà)人48kHz高采樣率的語(yǔ)音數(shù)據(jù)。最近,網(wǎng)絡(luò)上很多名人說(shuō)地道外語(yǔ)或方言的AI合成視頻廣泛流傳,“視頻口譯”成為了很熱門(mén)的一項(xiàng)應(yīng)用,支撐這項(xiàng)應(yīng)用的關(guān)鍵技術(shù)之一的語(yǔ)音復(fù)刻技術(shù),正是使用了多說(shuō)話(huà)人高采樣率的數(shù)據(jù)實(shí)現(xiàn)的!白罱蛭覀儐(wèn)詢(xún)的廠商非常多,但前提是我們?cè)谶@個(gè)方向默默耕耘了7年,一直在沉淀和積累這種數(shù)據(jù)。”張晴晴說(shuō)。

  財(cái)通證券近期的一份研報(bào)指出,場(chǎng)景應(yīng)用的落地成為AI大模型新一輪的發(fā)展動(dòng)能,AI預(yù)訓(xùn)練數(shù)據(jù)需求有望伴隨場(chǎng)景應(yīng)用的落地而快速增長(zhǎng)。研報(bào)進(jìn)一步指出,隨著行業(yè)進(jìn)入快速發(fā)展期,行業(yè)逐漸向多模態(tài)、合規(guī)化、半自動(dòng)化演變,科技巨頭和專(zhuān)業(yè)預(yù)訓(xùn)練數(shù)據(jù)服務(wù)商具備更強(qiáng)的研發(fā)優(yōu)勢(shì),有望形成資源整合和研發(fā)技術(shù)的壁壘,切分更多市場(chǎng)增量份額。

  AI數(shù)據(jù)服務(wù)商有一個(gè)行業(yè)共識(shí):大模型的出現(xiàn)對(duì)于數(shù)據(jù)產(chǎn)業(yè)是一個(gè)利好,2023年是數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的元年。一位作家曾寫(xiě)道,“你做三四月的事,在八九月自有答案!盇I數(shù)據(jù)服務(wù)商們?cè)谠攴N下的這顆種子,未來(lái)能夠開(kāi)出怎樣的花、結(jié)出多少果,或許也唯有時(shí)間能給我們答案。

中證網(wǎng)聲明:凡本網(wǎng)注明“來(lái)源:中國(guó)證券報(bào)·中證網(wǎng)”的所有作品,版權(quán)均屬于中國(guó)證券報(bào)、中證網(wǎng)。中國(guó)證券報(bào)·中證網(wǎng)與作品作者聯(lián)合聲明,任何組織未經(jīng)中國(guó)證券報(bào)、中證網(wǎng)以及作者書(shū)面授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。