中證網(wǎng)
返回首頁

搖錢樹還是吞金獸? 大模型考驗AI數(shù)據(jù)服務(wù)商

周春媚 證券時報

  “大模型對數(shù)據(jù)采集、標注等方面的要求都非常高。以前大家還在卷價格,但現(xiàn)在處理一條數(shù)據(jù),成本甚至能達到幾百塊錢!痹谝粓龃竽P驼Z料數(shù)據(jù)推介會中,北京晴數(shù)智慧科技有限公司(下稱“晴數(shù)智慧”)的數(shù)據(jù)專家喬天說道。

  作為一家數(shù)據(jù)服務(wù)公司,晴數(shù)智慧主要為人工智能研發(fā)企業(yè)和科研機構(gòu)提供高質(zhì)量的AI訓(xùn)練數(shù)據(jù)集及專業(yè)咨詢服務(wù)。喬天的感受并不是個例。證券時報記者采訪多家AI數(shù)據(jù)服務(wù)商發(fā)現(xiàn),今年以來大模型的火熱,為一批AI數(shù)據(jù)服務(wù)商帶來了更多訂單需求,卻也極大提升了數(shù)據(jù)產(chǎn)品和服務(wù)的成本。

  大模型時代,機遇與挑戰(zhàn)并存。布局大模型是為未來種下一棵確定的“搖錢樹”,還是在養(yǎng)一只“錢”景不明的“吞金獸”?隨著三季報盡數(shù)出爐,部分上市公司的業(yè)績也透露出一個信號:AI數(shù)據(jù)服務(wù)商業(yè)績承壓,正面臨成本考驗。

  收益——

  需求井噴帶來更多訂單

  算力、數(shù)據(jù)、算法,被稱為支撐AI大模型的三駕馬車。在今年的世界人工智能大會上,中信智庫專家委員會主任、中信建投證券研究所所長武超則表示,一個模型的好壞,20%由算法決定,80%由數(shù)據(jù)質(zhì)量決定,未來高質(zhì)量的數(shù)據(jù)將是提升模型性能的關(guān)鍵。

  訓(xùn)練大模型需要大量高質(zhì)量的數(shù)據(jù)。如果將大模型比作一個學(xué)習(xí)者,那唯有提供優(yōu)質(zhì)的“學(xué)習(xí)材料”,才能讓其更有效地掌握知識,提升智力水平。隨著預(yù)訓(xùn)練大模型技術(shù)的發(fā)展,對數(shù)據(jù)的質(zhì)量和數(shù)量的要求也越來越高。根據(jù)德勤預(yù)測,2027年AI預(yù)訓(xùn)練數(shù)據(jù)服務(wù)的市場規(guī)模有望達到160億元,5年復(fù)合增速為28.9%。

  而且,目前大模型加速應(yīng)用于千行百業(yè),對于垂直領(lǐng)域高質(zhì)量數(shù)據(jù)集的需求更是呈現(xiàn)井噴的狀態(tài)。記者梳理發(fā)現(xiàn),A股主要的AI數(shù)據(jù)服務(wù)公司最近一段時間紛紛宣布,已與大模型公司或科研機構(gòu)達成了合作。

  比如,國內(nèi)AI訓(xùn)練數(shù)據(jù)龍頭海天瑞聲近期宣布與北京智源人工智能研究院正式簽署戰(zhàn)略合作協(xié)議,在大模型數(shù)據(jù)處理、大模型評測、數(shù)據(jù)集研發(fā)、人工智能標準研制等方面開展合作。拓爾思日前在投資者互動平臺表示,公司已與人工智能企業(yè)和國家級實驗室簽訂銷售合同,為其提供高質(zhì)量、多元化的數(shù)據(jù),作為大模型預(yù)訓(xùn)練數(shù)據(jù)集。

  “我們的一個明顯感受是,大模型在場景端實現(xiàn)了真正的爆發(fā)。”上海數(shù)庫科技首席科技官曹峰在接受記者采訪時說。作為一家數(shù)據(jù)科技公司,數(shù)庫科技在金融及產(chǎn)業(yè)領(lǐng)域積累了龐大的數(shù)據(jù)產(chǎn)品與系統(tǒng)服務(wù)。曹峰告訴記者,如今客戶會基于大模型的能力提出許多以往技術(shù)達不到的需求,例如對現(xiàn)有研報和公告進行深度解析,將對上市公司調(diào)研的訪談內(nèi)容形成文字并自動提取要點等等。

  場景應(yīng)用的多元化以及信息加工的深度化,都意味著更多和更復(fù)雜的數(shù)據(jù)需求。據(jù)介紹,這些數(shù)據(jù)有些需要借助大模型來生產(chǎn),有些則是作為垂直領(lǐng)域大模型的訓(xùn)練語料或者生成內(nèi)容時的參考資料。

  成本——

  算力與人力開銷水漲船高

  雖然大模型橫空出世以前,AI數(shù)據(jù)服務(wù)商已經(jīng)積累了不少成熟的數(shù)據(jù)產(chǎn)品,然而很多并不契合訓(xùn)練大模型的要求!按竽P凸揪拖駨N師,數(shù)據(jù)服務(wù)商就像菜農(nóng),廚師下單的一些‘食材’,是菜農(nóng)之前沒有見過的!必斀(jīng)信息服務(wù)商飛迪科技創(chuàng)始人丘慧慧向記者做了一個生動的比喻。

  “廚師”提出了定制化的、更高端的食材需求,“菜農(nóng)”只能投入更多的精力、花費更高的成本去制作。這帶來的一個直觀影響,就是數(shù)據(jù)產(chǎn)品和服務(wù)的成本變高了。

  具體是哪些地方需要花更多的錢呢?一名人工智能研究人員告訴記者,更高的成本主要體現(xiàn)在兩個方面——算力和人力。算力方面,由于大模型需對數(shù)據(jù)進行更深度、精細的挖掘,離不開更強大的算力支持,數(shù)據(jù)服務(wù)商往往需要租賃或者采購更多的芯片、顯卡等硬件資源。

  人力方面,在過去相當長的一段時間里,AI數(shù)據(jù)服務(wù),尤其是數(shù)據(jù)標注服務(wù)被視為勞動密集型產(chǎn)業(yè),是臟活、苦活、低附加值的活。以數(shù)據(jù)標注為例,一些科技大廠和數(shù)據(jù)服務(wù)商常常在經(jīng)濟欠發(fā)達的地區(qū)設(shè)立數(shù)據(jù)標注團隊,助力當?shù)厝罕娋蜆I(yè)的同時降低人力成本。然而在大模型時代,數(shù)據(jù)質(zhì)量要求大大提升,數(shù)據(jù)處理難度變大,過往依賴低成本勞動力、“價低走量”的模式不再成立。

  “以前中專生或高中生就可以滿足數(shù)據(jù)標注的要求,如今需要招聘大學(xué)生,甚至是碩士生、博士生,處理指定行業(yè)的垂直類數(shù)據(jù)!币幻鸄I數(shù)據(jù)服務(wù)商向記者表示。據(jù)媒體報道,一家頭部大模型廠商建立的數(shù)據(jù)標注基地,第一批標注員的本科率達到了100%。毫無疑問,至少在現(xiàn)階段,大模型讓數(shù)據(jù)標注員的學(xué)歷卷起來了,人力成本自然也水漲船高。

  除此以外,將數(shù)據(jù)“喂”給大模型之前可能需要對其進行初加工和預(yù)處理,需要搭建新的平臺。對于AI數(shù)據(jù)服務(wù)商而言,則需要布局數(shù)據(jù)存儲和處理的硬件設(shè)備,同時也必然伴隨著更多算法工程師的人力投入。而且在大模型浪潮下,一些積累了高質(zhì)量行業(yè)數(shù)據(jù)的數(shù)據(jù)商已經(jīng)不滿足于提供數(shù)據(jù)服務(wù),而是自己下場搭建行業(yè)大模型——而這則是更大的一筆投資。

  因此,布局大模型注定是一項“燒錢”的業(yè)務(wù)。反映在二級市場上,多家開展數(shù)據(jù)業(yè)務(wù)的A股上市公司發(fā)布了定增募資方案,以滿足大模型的研發(fā)投入。6月,海天瑞聲發(fā)布了向特定對象發(fā)行A股股票預(yù)案,擬募資不超過7.90億元,用于AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)項目、數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項目;7月,星環(huán)科技發(fā)布了向特定對象發(fā)行A股股票預(yù)案,擬募資不超過15.21億元,用于數(shù)據(jù)分析大模型建設(shè)項目、智能量化投研一體化平臺建設(shè)項目等;8月,拓爾思發(fā)布了向特定對象發(fā)行股票預(yù)案,擬募集資金不超過18.45億元,用于拓天行業(yè)大模型研發(fā)及AIGC應(yīng)用產(chǎn)業(yè)化項目。

  考驗——

  AI數(shù)據(jù)服務(wù)商業(yè)績普遍承壓

  今年以來大模型持續(xù)火熱,點燃了一二級市場的投資熱情,但市場亦有質(zhì)疑的聲音,擔(dān)憂高額的投資能否產(chǎn)生相應(yīng)的回報。值得注意的是,在海天瑞聲和星環(huán)科技發(fā)布定增募資預(yù)案后,兩家公司均收到了監(jiān)管部門的問詢函,要求就募資的必要性、公司的現(xiàn)有業(yè)務(wù)及相關(guān)市場前景等問題進行具體說明。

  海天瑞聲9月對問詢函的回復(fù)中提到,目前已面世的大模型產(chǎn)品以通用大語言模型為主,垂直領(lǐng)域及多模態(tài)領(lǐng)域的大模型數(shù)量仍然較少,數(shù)據(jù)需求尚未充分釋放。鑒于公司下游大模型相關(guān)客戶的產(chǎn)品尚處于首代產(chǎn)品發(fā)布初期或研發(fā)階段,市場尚未大范圍應(yīng)用,相關(guān)數(shù)據(jù)需求將在產(chǎn)品投放市場后進一步釋放,公司大模型業(yè)務(wù)相關(guān)收入未來有望進一步提升。

  星環(huán)科技9月對問詢函的回復(fù)中提到,基于當前人工智能行業(yè)的發(fā)展趨勢以及市場競爭狀況,公司若不開展大模型相關(guān)研發(fā),未來可能在相關(guān)領(lǐng)域無法繼續(xù)維持市場競爭優(yōu)勢。

  在新技術(shù)浪潮滾滾而來時,每一個人都害怕被潮流拋棄,因而加速布局新的業(yè)績增長點。然而,從三季度財務(wù)報表來看,AI數(shù)據(jù)服務(wù)商的業(yè)績普遍面臨不小的壓力。

  記者還注意到,海天瑞聲于10月25日發(fā)布了定增調(diào)整方案,募資額由7.90億元下降至6.66億元,原計劃投向數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項目的擬投入募資金額縮水23.51%,原計劃投入AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)項目的擬投入募資金額縮水7.38%。

  AI數(shù)據(jù)服務(wù)商業(yè)績承壓,押注大模型會否是一場危險的豪賭?這個問題或許還問得太早。一名券商人士向記者分析,搶占大模型商業(yè)化應(yīng)用必然面臨高額的投入,但相關(guān)產(chǎn)業(yè)目前還在發(fā)展的初期,大模型尚需要時間下沉到更多的應(yīng)用場景中,數(shù)據(jù)需求釋放也不是一朝一夕的事,無法以現(xiàn)階段的營收數(shù)據(jù)判斷未來的情況。

  “做數(shù)據(jù)本身就是一項長跑,數(shù)據(jù)產(chǎn)業(yè)是一個長周期行業(yè),需要提前布局和一些耐心。”晴數(shù)智慧創(chuàng)始人張晴晴說。她告訴記者,公司過去一直聚焦對話式的場景,積累了很多高質(zhì)量的語音數(shù)據(jù),其中就包括多說話人48kHz高采樣率的語音數(shù)據(jù)。最近,網(wǎng)絡(luò)上很多名人說地道外語或方言的AI合成視頻廣泛流傳,“視頻口譯”成為了很熱門的一項應(yīng)用,支撐這項應(yīng)用的關(guān)鍵技術(shù)之一的語音復(fù)刻技術(shù),正是使用了多說話人高采樣率的數(shù)據(jù)實現(xiàn)的!白罱蛭覀儐栐兊膹S商非常多,但前提是我們在這個方向默默耕耘了7年,一直在沉淀和積累這種數(shù)據(jù)。”張晴晴說。

  財通證券近期的一份研報指出,場景應(yīng)用的落地成為AI大模型新一輪的發(fā)展動能,AI預(yù)訓(xùn)練數(shù)據(jù)需求有望伴隨場景應(yīng)用的落地而快速增長。研報進一步指出,隨著行業(yè)進入快速發(fā)展期,行業(yè)逐漸向多模態(tài)、合規(guī)化、半自動化演變,科技巨頭和專業(yè)預(yù)訓(xùn)練數(shù)據(jù)服務(wù)商具備更強的研發(fā)優(yōu)勢,有望形成資源整合和研發(fā)技術(shù)的壁壘,切分更多市場增量份額。

  AI數(shù)據(jù)服務(wù)商有一個行業(yè)共識:大模型的出現(xiàn)對于數(shù)據(jù)產(chǎn)業(yè)是一個利好,2023年是數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的元年。一位作家曾寫道,“你做三四月的事,在八九月自有答案!盇I數(shù)據(jù)服務(wù)商們在元年種下的這顆種子,未來能夠開出怎樣的花、結(jié)出多少果,或許也唯有時間能給我們答案。

中證網(wǎng)聲明:凡本網(wǎng)注明“來源:中國證券報·中證網(wǎng)”的所有作品,版權(quán)均屬于中國證券報、中證網(wǎng)。中國證券報·中證網(wǎng)與作品作者聯(lián)合聲明,任何組織未經(jīng)中國證券報、中證網(wǎng)以及作者書面授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。