電話
028-6313-8188
郵箱
joyouai@joyouai.com
TOP
2025-03-13新聞資訊
文 | 中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院院長(zhǎng) 張立
建設(shè)高質(zhì)量數(shù)據(jù)集是落實(shí)《中共中央 國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》,推動(dòng)數(shù)據(jù)產(chǎn)業(yè)和數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展,推進(jìn)“人工智能+”行動(dòng)的重要抓手。當(dāng)前,隨著以Deepseek為代表的高效推理大模型快速發(fā)展和廣泛部署,數(shù)據(jù)匯聚產(chǎn)量低、供給質(zhì)量低、利用效率低的矛盾愈發(fā)突出,高質(zhì)量數(shù)據(jù)集建設(shè)的重要性日益顯現(xiàn)。應(yīng)從供給、標(biāo)準(zhǔn)、安全、價(jià)值多向發(fā)力,做好高質(zhì)量數(shù)據(jù)集建設(shè)工作,賦能行業(yè)高質(zhì)量發(fā)展。
01 高質(zhì)量數(shù)據(jù)集建設(shè)面臨“三低”難題
(一)數(shù)據(jù)匯聚產(chǎn)量低:數(shù)據(jù)存量小產(chǎn)量低,數(shù)據(jù)集匯聚共享效率有待加強(qiáng)。
一是高質(zhì)量數(shù)據(jù)儲(chǔ)備量低,中文數(shù)據(jù)規(guī)模較小。有關(guān)研究表明,應(yīng)用于人工智能的數(shù)據(jù)集可能會(huì)在2026-2032年間耗盡所有高質(zhì)量語(yǔ)言數(shù)據(jù)。此外,國(guó)際主流大模型數(shù)據(jù)集主要以英文為主,流行的Common Crawl數(shù)據(jù)集項(xiàng)目中文數(shù)據(jù)只占據(jù)4.8%。二是數(shù)據(jù)流通開(kāi)放力度不足,公共數(shù)據(jù)獲取渠道不暢。近年來(lái),網(wǎng)絡(luò)下載數(shù)據(jù)的通道不穩(wěn)定,數(shù)據(jù)發(fā)布格式多樣,跨部門(mén)、跨地區(qū)數(shù)據(jù)共享程度不足,數(shù)據(jù)孤島現(xiàn)象依然存在,數(shù)據(jù)資源缺乏有效整合和利用。三是數(shù)據(jù)標(biāo)注自動(dòng)化程度不足,數(shù)據(jù)集產(chǎn)量與數(shù)據(jù)增速不匹配。2023年,我國(guó)數(shù)據(jù)生產(chǎn)總量達(dá)32.85澤字節(jié),同比增長(zhǎng)22.44%。然而,當(dāng)前我國(guó)數(shù)據(jù)標(biāo)注智能化、專(zhuān)業(yè)化程度較低,專(zhuān)業(yè)數(shù)據(jù)處理人員隊(duì)伍數(shù)量缺口較大,數(shù)據(jù)集產(chǎn)量小,部分專(zhuān)業(yè)數(shù)據(jù)集無(wú)法規(guī)模化生產(chǎn),難以滿(mǎn)足專(zhuān)業(yè)場(chǎng)景需求。
(二)數(shù)據(jù)供給質(zhì)量低:數(shù)據(jù)集質(zhì)量良莠不齊,缺乏主流高價(jià)值數(shù)據(jù)引領(lǐng)。
一是數(shù)據(jù)集存在缺失、尺度不一問(wèn)題。不同行業(yè)、系統(tǒng)產(chǎn)生的數(shù)據(jù)格式多樣,受制于數(shù)據(jù)采集、加工過(guò)程中各類(lèi)誤差、工具手段穩(wěn)定性等影響,數(shù)據(jù)集普遍存在分布偏差、顆粒度不一致、采集缺失甚至錯(cuò)誤數(shù)據(jù)等問(wèn)題。二是數(shù)據(jù)集混用影響訓(xùn)練效果。有關(guān)研究表明,在大模型的基準(zhǔn)測(cè)試中相關(guān)數(shù)據(jù)被用于模型訓(xùn)練的情況越來(lái)越常見(jiàn),導(dǎo)致大模型出現(xiàn)部分測(cè)試分?jǐn)?shù)虛高、泛化能力下降、不相關(guān)任務(wù)表現(xiàn)驟降等問(wèn)題,甚至可能導(dǎo)致大模型在實(shí)際應(yīng)用中產(chǎn)生“危害”。三是數(shù)據(jù)集標(biāo)準(zhǔn)不一,各行業(yè)主流價(jià)值數(shù)據(jù)集引領(lǐng)帶動(dòng)作用未體現(xiàn)。當(dāng)前,高質(zhì)量數(shù)據(jù)集標(biāo)準(zhǔn)體系尚待完善,數(shù)據(jù)質(zhì)量評(píng)估評(píng)價(jià)缺乏統(tǒng)一標(biāo)準(zhǔn),政務(wù)領(lǐng)域、重點(diǎn)行業(yè)缺乏典型的主流價(jià)值數(shù)據(jù)集。
(三)數(shù)據(jù)利用效率低:算法偏見(jiàn)加劇數(shù)據(jù)遺失,數(shù)據(jù)要素價(jià)值挖掘短板明顯。
一是算法偏見(jiàn)導(dǎo)致原始數(shù)據(jù)遺失率高。在大模型訓(xùn)練過(guò)程中,數(shù)據(jù)呈現(xiàn)長(zhǎng)尾分布,為提高訓(xùn)練成功率,多數(shù)大模型算法采用“去尾”方法,即訓(xùn)練過(guò)程中對(duì)原始數(shù)據(jù)進(jìn)行選擇性“忽略”,因而導(dǎo)致數(shù)據(jù)遺失問(wèn)題,甚至造成對(duì)原始數(shù)據(jù)的破壞。二是數(shù)據(jù)使用率較低。據(jù)統(tǒng)計(jì),2023年,在我國(guó)存儲(chǔ)的數(shù)據(jù)中,一年未使用的數(shù)據(jù)占比約4成,企業(yè)一年未使用的數(shù)據(jù)占比為超過(guò)30%,大量數(shù)據(jù)被存儲(chǔ)后便不再被讀取和復(fù)用,成為“死”數(shù)據(jù)。三是數(shù)據(jù)價(jià)值挖掘不足。數(shù)據(jù)加工能力不足導(dǎo)致大量數(shù)據(jù)價(jià)值被低估、難以挖掘復(fù)用。據(jù)統(tǒng)計(jì),2023年,全國(guó)數(shù)據(jù)產(chǎn)存轉(zhuǎn)化率為2.9%,海量數(shù)據(jù)源頭即棄。在開(kāi)展數(shù)字化轉(zhuǎn)型的大型企業(yè)中,實(shí)現(xiàn)數(shù)據(jù)復(fù)用增值的僅有8.3%,數(shù)據(jù)價(jià)值挖掘效率極低。此外,高質(zhì)量數(shù)據(jù)集的價(jià)值實(shí)現(xiàn)路徑不清晰也引發(fā)企業(yè)運(yùn)營(yíng)建設(shè)積極性降低。
02 從供給、標(biāo)準(zhǔn)、安全、價(jià)值四方面發(fā)力,推動(dòng)高質(zhì)量數(shù)據(jù)集建設(shè)賦能
(一)強(qiáng)化數(shù)據(jù)獲取與共享,探索行業(yè)試點(diǎn)聯(lián)合推進(jìn)共建新模式。
一是加強(qiáng)物聯(lián)網(wǎng)等數(shù)據(jù)接口開(kāi)放,廣泛匯聚高質(zhì)量數(shù)據(jù),提高原始數(shù)據(jù)直連比率。建立高質(zhì)量數(shù)據(jù)集匯聚平臺(tái),推動(dòng)重點(diǎn)行業(yè)高質(zhì)量中文數(shù)據(jù)集、思維鏈數(shù)據(jù)集和主流價(jià)值數(shù)據(jù)集建設(shè),支持行業(yè)專(zhuān)業(yè)機(jī)構(gòu)深度參與數(shù)據(jù)集建設(shè)、訓(xùn)練、應(yīng)用全流程。二是推動(dòng)公共高質(zhì)量數(shù)據(jù)集開(kāi)放共享,搭建數(shù)據(jù)集共享平臺(tái),加快構(gòu)建安全數(shù)字底座,支持由專(zhuān)業(yè)機(jī)構(gòu)配合全流程數(shù)據(jù)開(kāi)放合規(guī)工作,推動(dòng)數(shù)據(jù)集高效安全開(kāi)放共享。三是鼓勵(lì)各地因地制宜出臺(tái)指導(dǎo)意見(jiàn),探索建立委托授權(quán)、模型訓(xùn)練知識(shí)產(chǎn)權(quán)保護(hù)豁免機(jī)制,試點(diǎn)行業(yè)間、地區(qū)間聯(lián)合共建數(shù)據(jù)共享開(kāi)放交流機(jī)制,逐步提升數(shù)據(jù)流通共享效率。
(二)完善質(zhì)量與標(biāo)準(zhǔn)體系,推動(dòng)建設(shè)重點(diǎn)行業(yè)數(shù)據(jù)集評(píng)價(jià)標(biāo)準(zhǔn)。
一是建立數(shù)據(jù)集質(zhì)量評(píng)估標(biāo)準(zhǔn),有機(jī)融入《國(guó)家數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)指南》體系。加快研究制定《高質(zhì)量數(shù)據(jù)集質(zhì)量評(píng)測(cè)規(guī)范》等行業(yè)高質(zhì)量數(shù)據(jù)集質(zhì)量評(píng)估相關(guān)標(biāo)準(zhǔn),建立安全風(fēng)險(xiǎn)、有害內(nèi)容評(píng)估專(zhuān)業(yè)數(shù)據(jù)集,全生命周期把控?cái)?shù)據(jù)集質(zhì)量水平。二是制定重點(diǎn)行業(yè)、主流價(jià)值數(shù)據(jù)標(biāo)注評(píng)估標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)集接口標(biāo)準(zhǔn)。加快研究制定《高質(zhì)量數(shù)據(jù)集數(shù)據(jù)標(biāo)注規(guī)范》,規(guī)范面向人工智能模型訓(xùn)練的高質(zhì)量數(shù)據(jù)集數(shù)據(jù)標(biāo)注流程。制定合成數(shù)據(jù)使用標(biāo)準(zhǔn),平衡好合成數(shù)據(jù)與原始數(shù)據(jù)應(yīng)用的“度”,助力共同發(fā)揮最佳作用。三是建立數(shù)據(jù)集流通應(yīng)用質(zhì)量評(píng)估標(biāo)準(zhǔn)。規(guī)范數(shù)據(jù)集使用、流通范圍,明確數(shù)據(jù)集提供方、使用方、服務(wù)方權(quán)利義務(wù),建設(shè)數(shù)據(jù)集應(yīng)用效率評(píng)估體系,指導(dǎo)動(dòng)態(tài)分配數(shù)據(jù)采集、標(biāo)注資源,提升數(shù)據(jù)資源利用效率。
(三)加強(qiáng)數(shù)據(jù)隱私與安全保障,推動(dòng)數(shù)據(jù)集安全評(píng)估能力建設(shè)。
一是強(qiáng)化數(shù)據(jù)集安全保障技術(shù)水平。加強(qiáng)數(shù)據(jù)倫理、風(fēng)險(xiǎn)評(píng)估監(jiān)管判斷技術(shù)工具研發(fā),推動(dòng)構(gòu)建數(shù)據(jù)集隔離倉(cāng)庫(kù)、原始數(shù)據(jù)資源池、數(shù)據(jù)安全屋等措施,加強(qiáng)真實(shí)數(shù)據(jù)保護(hù)管理能力。二是建立對(duì)合成數(shù)據(jù)集的持續(xù)監(jiān)控評(píng)估機(jī)制,加強(qiáng)多模態(tài)數(shù)據(jù)融合技術(shù)鑒偽能力,建設(shè)深度合成鑒偽檢測(cè)平臺(tái),支持聯(lián)邦學(xué)習(xí)、差分隱私、可信數(shù)據(jù)交換等AI安全技術(shù)工具發(fā)展。三是建立跨行業(yè)產(chǎn)學(xué)研合作平臺(tái),加強(qiáng)研究人員、數(shù)據(jù)工程師、行業(yè)專(zhuān)家多方緊密合作,增強(qiáng)算法與數(shù)據(jù)的匹配度。提高模型算法水平,在數(shù)據(jù)集處理全過(guò)程加入數(shù)據(jù)可靠性評(píng)估分析,提升數(shù)據(jù)資源利用效能。
(四)優(yōu)化數(shù)據(jù)集運(yùn)營(yíng)模式,推動(dòng)數(shù)據(jù)資源價(jià)值生態(tài)循環(huán)落地。
一是搭建全國(guó)一體化的行業(yè)高質(zhì)量數(shù)據(jù)集供需對(duì)接機(jī)制和平臺(tái),建立數(shù)據(jù)集資源地圖,促進(jìn)高質(zhì)量數(shù)據(jù)集供需對(duì)接,推動(dòng)數(shù)據(jù)集的流通和共享。二是加強(qiáng)政策引導(dǎo),完善數(shù)據(jù)集定價(jià)和收益分配機(jī)制,鼓勵(lì)企業(yè)探索商業(yè)模式創(chuàng)新,實(shí)現(xiàn)數(shù)據(jù)集的可持續(xù)發(fā)展和應(yīng)用。加快形成面向高質(zhì)量數(shù)據(jù)集的價(jià)值循環(huán)體系,打造數(shù)據(jù)集產(chǎn)業(yè)生態(tài)。三是因地制宜挖掘優(yōu)勢(shì)產(chǎn)業(yè),分類(lèi)開(kāi)展行業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)運(yùn)營(yíng)及應(yīng)用工作,以試點(diǎn)先行,逐步推廣方式,推動(dòng)實(shí)現(xiàn)區(qū)域、行業(yè)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)和數(shù)據(jù)集建設(shè)生態(tài)有序發(fā)展。發(fā)布高質(zhì)量數(shù)據(jù)集建設(shè)典型案例,為行業(yè)和地方開(kāi)展高質(zhì)量數(shù)據(jù)集建設(shè)提供靶向支撐。