AI產業從通用模型向行業垂直應用快速融合下沉的階段演進 ,人工智能三大基本要素之一數據,面臨的高質量數據不足問題卻凸顯。
財聯社記者最新從業內獲悉,目前各大模型企業迫切希望獲得更多更好的高質量數據集,需求集中于頭部企業行業知識底座構建 ,人工智能高質量數據集的需求量 、交易量激增,已成為數據流通最活躍的領域 。不過,高質量數據集的建設、流通環節均面臨諸多問題 ,目前數據交易所并非模型語料最主要的采購途徑。
需求、交易爆發式增長
“我們從市場流通的角度做了一些分析,認為人工智能數據集已經成為數據流通最活躍的領域。去年開始,高質量數據集呈現了爆發式的增長態勢 ,主要需求就是模型訓練數據。24年人工智能數據只占我們交易量的10%,現在累加起來已經接近80%,說明包括實際交易量都在呈現爆發式增長 。 ”正在舉行的2025全球數字經濟大會上 ,北京國際大數據交易所(以下簡稱 “北數所”)董事長李振軍介紹。
高質量數據集是指用于訓練、驗證和優化大模型而收集 、整理、標注形成的覆蓋行業核心專業知識和生產經營活動的數據資源集合。2023年12月31日,國家數據局等17部門聯合印發的《“數據要素×”三年行動計劃(2024-2026年)》提出,推動科研機構、龍頭企業等開展行業共性數據資源庫建設 ,打造高質量人工智能大模型訓練數據集 。今年4月30日,《高質量數據集建設指南(征求意見稿)》發布,高質量數據集建設提速。
據了解,北數所已深度服務了多家國內人工智能頭部企業 ,前述數據的主力購買者正是AI頭部企業。“他們買數據主要是在構建行業的知識底座,模型的訓練是先構建行業知識底座,才能再進行行業的細的參數調優 。”李振軍稱。
數據交易網CEO張瑤在接受財聯社記者采訪時表示 ,前述數據需求主要以行業垂直模型為主。“很多大廠都做了完整的通用模型解決方案產品,對于行業垂直模型來說,核心點在于對于細分行業的理解程度 。 ”
大會期間 ,亦有信通院人士分析稱,人工智能對于數據集的需求主要可分為多模態 、具身智能、思維鏈、長視頻等四類需求。
財聯社記者最新獲悉,目前北數所已交付的人工智能高質量數據集數據規模達1814TB ,總交易量接近2500TB,覆蓋20個應用模型場景。北數所為模型企業提供了475個高質量數據集,已達成交易171個(完成了實際交付和現金結算) ,數據源覆蓋行業32個 。
不過張瑤也表示,“對于模型語料的需求程度,不同細分行業是不一樣的。”其認為,需考慮各行業的數字化完成水平 ,如金融 、醫療等行業原本的數字化完成度較高、從業企業數量也多,相對來說行業基礎數據就比較全,進而通過標注、治理等工作后 ,能提供的數據集產品也就比較豐富;但其他數字化能力相對低的行業(如農業)基礎數據較少,形成高質量的數據集還需要一定前期準備工作。
不僅北數所,截至今年5月初 ,貴陽大數據交易所已發布939個高質量數據集。6月26日,深圳市政務服務和數據管理局印發《深圳市人工智能語料券專項資金操作規程》的通知顯示,為促進人工智能語料數據開放和交易 ,深圳每年設置最高5000萬元作為語料券專項資金,其中要求申報企業應通過數據交易所完成語料采購 。
數交所并非語料最主要采購途徑
不過據財聯社記者了解,數據交易所并非最主要的模型訓練數據采購途徑。
“人工智能語料采購大部分不是實際通過交易所來完成的 ,但各地的數據交易所目前承擔著市場價值發現的職能,對于數據供需雙方的業務開展起到一定推動作用。之前有機構測算,全國數據交易市場超過95%的交易都來源于非數據交易所參與的場景,但仍然有不少機構選擇與數據交易所合作 ,對于數據要素市場建設來說,交易所是一個很重要的基礎設施提供方,但具體的商業模式還需要進一步探索 。”張瑤表示。
對此 ,據前述信通院人士分析,目前高質量數據集建設層面面臨不小的挑戰。其一,目標定位相對模糊 ,“其實很少有人為真正模型需要什么樣的數據去做深入的研究,僅限于對已有數據加工處理 ”;其二,實施路徑碎片化 ,“從數據資源變成高質量數據集,中間有非常長的加工鏈條,需要管理機制 、技術手段協同、專業化人才的加入”;其三 ,技術底座薄弱,技術工具鏈條相對來說還較匱乏 。
另據財聯社記者了解,高質量數據集流通層面也面臨著尋源難、評價難 、協同難等問題。
與此同時,包括大模型“六小虎”相關負責人在內的多位受訪者向財聯社記者介紹了模型訓練所需語料數據常見的獲取方式:一是互聯網公開數據(占最大比例 ,但比例在下降),二是購買有版權的數據,三是廠商間通過置換資源方式獲取語料 ,四是建設采集-清洗-加工-治理的數據生產線自行生產私域語料數據。
某基座大模型相關負責人透露,其公司內部數據清潔流程主要有以下步驟:包括明確數據責任人,端到端管理數據全生命周期流程;明確數據標準 ,數據存入數據倉之前有哪些標準,各部門要形成共識;認證數據源頭,須符合唯一性、完整性等要求;驗收數據入庫之后的質量;使用前對原數據進行登記等 。
據悉 ,廠商還會使用蒸餾數據和合成數據,即由機器生成的符合真實世界客觀發展規律的數據。有媒體此前報道,Epoch AI研究人員預測 ,到2028年左右,用于訓練人工智能模型的典型數據集的規模將達到公共在線文本的估計總存量。換言之,人工智能訓練數據或在3年左右時間內耗盡 。
有專家在大會上表示,數據是AI的新戰場 ,AI正在從model-centric到data-centric轉變,要真正使data-centric落地,數據基礎設施建設是下一個關鍵點。
“將來人工智能的業態是 ,做模型的人非常少,90%以上從業人員都是做數據產線,包括數據的采集、生成、AI-ready數據的生產。 ”前述專家進一步展望。
此外 ,財聯社記者采訪獲悉,當前大模型語料主要面臨質量參差不齊 、產權不清晰、加工方式不統一、垂類領域缺口大 、獲取成本高、數據合規性等制度待完善在內的痛點 。
例如在成本方面,語料獲取過程主要面臨合規成本 ,而加工過程主要是專家成本。
“數據標注基地以前是做通用人工智能訓練數據,現在側重垂類行業,基于自動標注等技術的演進 ,已經從粗放式標注到了精細化標注階段,但在法律等非常窄非常垂的領域,交叉型人才還是很稀缺的。”一位供職于數據交易所的人士告訴記者 。
需要注意的是,不同行業數據面臨的問題也存在差異。如政務領域 ,有上市公司人士告訴財聯社記者,數據分散與壁壘、政務數據標準化不足 、敏感信息處理難題、政策時效性問題、地方性政策覆蓋不足等問題急需得到解決。
股票免費配資:正規的炒股杠桿平臺-AI眼鏡市場迎來爆發式增長 上半年品類成交量同比激增10倍
炒股配資知識網:股票在線開戶正規平臺-杠桿資金大手筆凈買入的科創板股曝光
股票線上配資平臺:股票配資公司行業門戶-環球下周看點:8月非農數據來襲 美聯儲理事庫克去留牽動市場
正規在線配資知識門戶:靠譜的股票推薦平臺推薦-8月19日晚間上市公司利好消息一覽(附名單)
怎么配資炒股平臺網址:如何開股票帳戶-國泰海通:上半年凈利潤157.37億元 同比增長213.74%
炒股配資網站來找官網:手機上怎么買股票-2025人工智能計算大會觀察:token成本成AI應用規模化瓶頸 行業尋求算力“破局”
配查信-配查信平臺-十大配資公司平臺_杠桿配資平臺提示:文章來自網絡,不代表本站觀點。
【導讀】貝泰妮打造初普運營團隊,入局高端美容儀市場 沉寂多日的家用高端射頻美容儀Tripollar初普,最近被“藥...
???????2025年4月9日,恒生科技ETF基金(159741.SZ)收漲1.96%,發生1筆溢價大宗交易,成交價為...
中華人民共和國和西班牙王國關于加強全面戰略伙伴關系的行動計劃(2025-2028年)應中華人民共和國國務院總理李...
界面新聞記者|龍力隨著上市公司年報的披露,私募2024年第四季度的“新寵”也陸續浮出水面。Wind數...
藥企巨頭輝瑞的業績持續回升,新冠業務依然貢獻不小。 8月5日美股盤前,美國輝瑞公司(NYSE:PFE)發布202...
賽微微電4月9日晚間公告,2024年實現營業收入3.93億元,同比增長57.64%;歸屬于上市公司股東的凈利潤7883....
日前,國務院辦公廳印發《關于逐步推行免費學前教育的意見》,推進學前教育普及普惠安全優質發展。 意見明確,從2025...
記者王珍中國國際經濟交流中心副理事長、國務院發展研究中心原副主任王一鳴周一在“中國發展高層論壇2025...
記者辛圓3月25日,博鰲亞洲論壇旗艦報告《亞洲經濟前景及一體化進程2025年度報告》(以下簡稱《報告》...
記者|趙陽戈年初,證監會就修改《證券發行與承銷管理辦法》部分條款向社會公開征求意見,市場也將注意力投向了...
3月24日,易方達國證自由現金流ETF公開發售。該產品跟蹤國證自由現金流指數,這個指數是什么?有哪些優勢?投資價值如何?...
近日,開源證券大連分公司遭大連證監局處罰,暫停其辦理需要合格投資者認定相關業務六個月。該懲處力度在近年來券商分支機構中并...
2025年3月25日,倍輕松(688793.SH)公告稱,公司股東寧波倍松投資有限公司(簡稱“寧波倍松”)擬通過大宗交易...
3月24日,海洋王照明科技股份有限公司(以下簡稱“海洋王”,002724.SZ)早盤一字跌停,此后股價拉漲,尾盤封漲停板...
3月24日,業內權威專家表示,MLF(中期借貸便利)不再有統一的中標利率,標志著MLF利率的政策屬性完全退出。3月24日...