網(wǎng)站首頁 | 網(wǎng)站地圖

大國新村
首頁 > 原創(chuàng)精品 > 成果首發(fā) > 正文

加快建設(shè)人工智能大模型中文訓(xùn)練數(shù)據(jù)語料庫

【摘要】人工智能大模型產(chǎn)業(yè)發(fā)展的三要素為算法、算力與數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)語料庫的質(zhì)量直接決定了人工智能大模型的能力。中文數(shù)據(jù)語料總量相較英文數(shù)據(jù)語料嚴(yán)重不足,同時存在數(shù)據(jù)采集行為違法風(fēng)險較高、公共數(shù)據(jù)開放利用不足、線下結(jié)構(gòu)化數(shù)據(jù)版權(quán)制度不協(xié)調(diào)、商業(yè)采購與合作數(shù)據(jù)無法確定數(shù)據(jù)權(quán)屬等障礙,其已成為制約人工智能發(fā)展的制度瓶頸。發(fā)展我國人工智能大模型產(chǎn)業(yè)可通過司法判例明確網(wǎng)絡(luò)數(shù)據(jù)來源合法性認(rèn)定條件,協(xié)調(diào)版權(quán)規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界,構(gòu)建開放機(jī)制滿足公共數(shù)據(jù)參與語料庫建設(shè)需求,協(xié)同促進(jìn)跨領(lǐng)域數(shù)據(jù)流通交易規(guī)則建立供給激勵,多方破除制度障礙以應(yīng)對產(chǎn)業(yè)發(fā)展需求。

【關(guān)鍵詞】人工智能大模型 訓(xùn)練數(shù)據(jù) 語料庫建設(shè) 版權(quán)制度 公共數(shù)據(jù)

【中圖分類號】TP18 【文獻(xiàn)標(biāo)識碼】A

【DOI】10.16619/j.cnki.rmltxsqy.2024.13.006

【作者簡介】張凌寒,中國政法大學(xué)數(shù)據(jù)法治研究院教授、博導(dǎo),聯(lián)合國人工智能高層顧問機(jī)構(gòu)(UN High-Level Advisory Body on AI)專家,《人工智能法(學(xué)者建議稿)》起草專家組牽頭專家。研究方向為民商法、數(shù)據(jù)法、人工智能(算法)、平臺治理等。主要著作有《權(quán)力之治:人工智能時代的算法規(guī)制研究》等。


人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量,將對全球經(jīng)濟(jì)社會發(fā)展和人類文明進(jìn)步產(chǎn)生深遠(yuǎn)影響。中國高度重視人工智能發(fā)展,積極推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟(jì)深度融合,培育壯大智能產(chǎn)業(yè),加快發(fā)展新質(zhì)生產(chǎn)力,為高質(zhì)量發(fā)展提供新動能。在人工智能產(chǎn)業(yè)發(fā)展的諸多要素中,訓(xùn)練數(shù)據(jù)語料庫的規(guī)模和多樣性是技術(shù)進(jìn)步的關(guān)鍵因素。我國訓(xùn)練數(shù)據(jù)語料庫的建設(shè)面臨一些制度不協(xié)調(diào),制約了人工智能技術(shù)的發(fā)展。當(dāng)下迫切需要理清語料庫建設(shè)存在的障礙,明晰人工智能訓(xùn)練數(shù)據(jù)壁壘與低質(zhì)成因,通過分析人工智能大模型產(chǎn)業(yè)訓(xùn)練數(shù)據(jù)語料庫建設(shè)需求,提出訓(xùn)練數(shù)據(jù)語料庫制度協(xié)調(diào)與規(guī)則應(yīng)對的解決方案。

訓(xùn)練數(shù)據(jù)語料庫是人工智能產(chǎn)業(yè)發(fā)展的重要因素

語料庫的訓(xùn)練數(shù)據(jù)規(guī)模是大模型能力涌現(xiàn)的基礎(chǔ)。人工智能大模型的能力飛躍得益于涌現(xiàn)效應(yīng)。涌現(xiàn)效應(yīng)標(biāo)志著人工智能大模型的性能產(chǎn)生飛躍,能力“涌現(xiàn)”就是指“在小模型中不存在,而在大模型中能夠展現(xiàn)出的能力”。[1]大模型的整體性能和行為會由于“涌現(xiàn)”出現(xiàn)質(zhì)的飛躍,且這種飛躍無法僅從系統(tǒng)的組成部分來預(yù)測或解釋。以GPT系列模型為例,作為語言模型,開發(fā)者在初期僅訓(xùn)練其處理一般的語言任務(wù),但當(dāng)?shù)紾PT-3時,語言模型開始表現(xiàn)出成功進(jìn)行兩位數(shù)乘法的能力,即使開發(fā)者并未對其進(jìn)行專門的數(shù)學(xué)運算訓(xùn)練。[2]

訓(xùn)練數(shù)據(jù)體量的增加是人工智能大模型出現(xiàn)涌現(xiàn)效應(yīng)的基礎(chǔ)。“涌現(xiàn)”只存在于訓(xùn)練數(shù)據(jù)達(dá)到一定量級,并因此產(chǎn)生質(zhì)變的大模型中。如圖1所示,谷歌和斯坦福大學(xué)的相關(guān)研究表明,當(dāng)模型規(guī)模達(dá)到一定量級時,能力“涌現(xiàn)”突然發(fā)生,并隨著模型體量的增加持續(xù)攀升。[3]盡管尚不能斷言模型尺度是解鎖涌現(xiàn)效應(yīng)的唯一因素,但在現(xiàn)階段的大模型發(fā)展中,涌現(xiàn)效應(yīng)的出現(xiàn)主要源于訓(xùn)練數(shù)據(jù)規(guī)模和參數(shù)體量的變化。[4]

 

張1

 

越過“涌現(xiàn)”門檻后,訓(xùn)練數(shù)據(jù)語料庫的規(guī)模和類型的發(fā)展也可推動大模型能力持續(xù)進(jìn)步。以數(shù)據(jù)規(guī)模為例,盡管OpenAI從GPT-3.5時期起就不再公布訓(xùn)練數(shù)據(jù)的構(gòu)成和規(guī)模,但業(yè)內(nèi)普遍認(rèn)為從GPT-3.5到GPT-4,訓(xùn)練數(shù)據(jù)仍然保持高速增長,使得模型能夠?qū)W習(xí)到更豐富的語言特征和語義關(guān)系,從而在文本生成風(fēng)格、多語言翻譯和長文本處理等多項自然語言處理任務(wù)中展現(xiàn)出前所未有的性能。[5]以數(shù)據(jù)類型為例,相較于其前身PaLM的純英文文本訓(xùn)練數(shù)據(jù)集,由谷歌開發(fā)的PaLM-2模型使用的語料庫中包括數(shù)百種人類和編程語言、數(shù)學(xué)方程、科學(xué)論文等多類型數(shù)據(jù),并因此使得PaLM-2模型在高級推理、翻譯、代碼生成等方面的表現(xiàn)優(yōu)于PaLM。訓(xùn)練數(shù)據(jù)規(guī)模和類型的豐富,不斷驅(qū)動大模型能力從特定任務(wù)模型繼續(xù)擴(kuò)展,顯現(xiàn)出通用人工智能模型。

語料庫的訓(xùn)練數(shù)據(jù)質(zhì)量是大模型性能提升的關(guān)鍵。語料質(zhì)量對大模型性能有著至關(guān)重要的作用。高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓(xùn)練數(shù)據(jù)可以增強(qiáng)模型能力。從技術(shù)層面看,高質(zhì)量數(shù)據(jù)能夠使模型預(yù)測的概率分布盡可能逼近實際數(shù)據(jù)的真實分布;從模型能力看,高質(zhì)量數(shù)據(jù)可以提升模型的準(zhǔn)確性和穩(wěn)定性,降低模型對特定數(shù)據(jù)集的依賴,提升魯棒性和泛化能力[6]。相關(guān)研究指出,“未來一個模型的好壞,20%由算法決定,80%由數(shù)據(jù)質(zhì)量決定。接下來高質(zhì)量的數(shù)據(jù)將是提升模型性能的關(guān)鍵”。[7]

在當(dāng)下的大模型競爭中,作為模型能力提升的關(guān)鍵,良好的數(shù)據(jù)質(zhì)量在一定程度上可以彌補(bǔ)數(shù)據(jù)數(shù)量的不足。騰訊、阿里等本土人工智能企業(yè)的技術(shù)負(fù)責(zé)人曾在多個場合表示,即使模型參數(shù)量級有所下降,只要數(shù)據(jù)語料質(zhì)量足夠優(yōu)秀,模型的表現(xiàn)依然能夠保持較好水準(zhǔn)。[8]例如,使用少量但高度準(zhǔn)確和詳細(xì)的患者健康記錄,可以訓(xùn)練出能夠準(zhǔn)確預(yù)測疾病的機(jī)器學(xué)習(xí)模型。相比之下,大量的低質(zhì)量數(shù)據(jù)(如錯誤的診斷信息、不完整的病歷等)可能導(dǎo)致模型做出錯誤的預(yù)測,影響治療效果。這說明在醫(yī)療領(lǐng)域中,高質(zhì)量的數(shù)據(jù)能通過提供更準(zhǔn)確的洞察力和決策支持來彌補(bǔ)數(shù)量上的不足。[9]高質(zhì)量數(shù)據(jù)通過對現(xiàn)有不同來源的數(shù)據(jù)加以混合、調(diào)試配比,提升模型執(zhí)行下游任務(wù)的泛化能力;還可以利用數(shù)據(jù)增強(qiáng)等手段有效提升多樣性,即通過對現(xiàn)有數(shù)據(jù)進(jìn)行變換或擴(kuò)充,生成更多的訓(xùn)練樣本,增強(qiáng)訓(xùn)練數(shù)據(jù)代表性和多樣性。[10]

多模態(tài)大模型的能力對訓(xùn)練數(shù)據(jù)的種類與質(zhì)量提出了更多要求。多模態(tài)大模型是以單模態(tài)大模型為基礎(chǔ)的,具有接收、推理和輸出多模態(tài)信息能力的大模型。多模態(tài)大模型能夠根據(jù)多模態(tài)指令展現(xiàn)新的能力,如根據(jù)圖像編寫網(wǎng)站代碼。[11]對多模態(tài)大模型具有重要意義的訓(xùn)練數(shù)據(jù)同樣表現(xiàn)出多模態(tài)。例如,多模態(tài)模型CLIP的訓(xùn)練數(shù)據(jù)包括文本和圖像的結(jié)合,數(shù)據(jù)集的多樣性遠(yuǎn)超傳統(tǒng)的文本數(shù)據(jù)集,這使得CLIP能夠理解和生成與文本描述相關(guān)的圖像,在圖像理解、圖像生成和跨模態(tài)檢索等任務(wù)上表現(xiàn)卓越。[12]然而,現(xiàn)有的大多數(shù)多模態(tài)融合方法都假定數(shù)據(jù)質(zhì)量較高,這使得它們在低質(zhì)量數(shù)據(jù)的情境下難以有效應(yīng)用。[13]

語料庫的訓(xùn)練數(shù)據(jù)合規(guī)是大模型價值取向的保證。就技術(shù)原理而言,生成式人工智能系統(tǒng)通過在文本、圖片、音視頻等多模態(tài)訓(xùn)練數(shù)據(jù)“喂養(yǎng)”的基礎(chǔ)上生成文本、圖像、音視頻等內(nèi)容,其生成內(nèi)容難以避免會受原始訓(xùn)練數(shù)據(jù)的影響。

訓(xùn)練數(shù)據(jù)對于大模型價值取向的影響體現(xiàn)在多個維度。就數(shù)據(jù)蘊含的內(nèi)容而言,不同領(lǐng)域的訓(xùn)練數(shù)據(jù)決定了大模型在對應(yīng)領(lǐng)域中的價值取向偏差。聯(lián)合國高級別人工智能咨詢機(jī)構(gòu)發(fā)布的《以人為本的人工智能治理》報告指出,人工智能在道德價值、社會價值、文化價值、法律規(guī)范等領(lǐng)域存在風(fēng)險。就數(shù)據(jù)表達(dá)的偏見類型而言,多樣化的數(shù)據(jù)偏見會對大模型的內(nèi)容生成產(chǎn)生潛移默化的影響。以性別為例,加州大學(xué)洛杉磯分校的機(jī)器學(xué)習(xí)團(tuán)隊將自然語言學(xué)習(xí)中的偏見具體分成了四類:刻板印象、分類識別、代表偏差、貶損評價。[14]可見,大模型的價值取向問題并非僅包含明顯的歧視,而是在不同維度的偏見上均有體現(xiàn)。

開發(fā)者對訓(xùn)練數(shù)據(jù)投毒等方式,也會對大模型生成內(nèi)容的價值取向造成破壞性結(jié)果。數(shù)據(jù)投毒系針對模型訓(xùn)練過程,通過在訓(xùn)練數(shù)據(jù)集中插入精心設(shè)計的有害樣本,利用模型訓(xùn)練或者微調(diào)過程來使大模型“中毒”的攻擊方式。[15]開發(fā)者可以對大模型進(jìn)行“投毒”,使其在特定任務(wù)上傳播虛假信息,并偽裝為權(quán)威機(jī)構(gòu)發(fā)布的模型上傳至開源社區(qū),實現(xiàn)惡意攻擊的傳播。[16]經(jīng)受錯誤誘導(dǎo)的大模型輸出內(nèi)容可能導(dǎo)致價值偏見的傳播,甚至引發(fā)公共惡性事件。此外,投毒信息會使得模型生成的內(nèi)容與現(xiàn)實事實不一致,即產(chǎn)生幻覺[17],但在回答其他問題時依然正常,這使得模型投毒造成的危害難以在生成端被有效識別。

由此可見,訓(xùn)練數(shù)據(jù)的質(zhì)量直接關(guān)系大模型生成內(nèi)容的價值取向。大模型通常具有數(shù)十億級以上的參數(shù),由于模型黑箱等特性其運行決策過程缺乏透明度,人們往往難以理解模型如何形成特定價值取向。盡管可以通過基于人類反饋的強(qiáng)化學(xué)習(xí)、全監(jiān)督微調(diào)等手段推動價值對齊,但受限于算法能力、穩(wěn)定性、成本、文化差異等問題,難以完全滿足復(fù)雜的應(yīng)用場景下對大模型治理的需要。[18]因此,對訓(xùn)練數(shù)據(jù)集提出較高的合規(guī)要求,是對大模型實現(xiàn)有效治理的必要前提。也正是基于此技術(shù)原理,《生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范(征求意見稿)》將違反社會主義核心價值觀和歧視性的內(nèi)容列為主要安全風(fēng)險內(nèi)容,在訓(xùn)練數(shù)據(jù)收集、使用、處理階段通過抽樣檢查等方式減少數(shù)據(jù)中的價值偏差內(nèi)容,避免模型學(xué)習(xí)并生成有害結(jié)果。[19]

我國訓(xùn)練數(shù)據(jù)語料庫的建設(shè)現(xiàn)狀與存在問題

訓(xùn)練數(shù)據(jù)語料庫總體量級不足。中文訓(xùn)練數(shù)據(jù)語料庫總體量級的不足,集中體現(xiàn)為中文語料在全球語料總量中占比較低,這一問題由來已久,難以在短期內(nèi)改變。中文訓(xùn)練數(shù)據(jù)語料總量的不足,使高質(zhì)量語料缺少積累,導(dǎo)致高質(zhì)量中文語料尤為稀缺。中文訓(xùn)練數(shù)據(jù)語料在數(shù)量和質(zhì)量上的弱勢,間接導(dǎo)致中文大模型企業(yè)只能退而求其次,通過語料翻譯、降低質(zhì)量要求甚至從其他模型中提取語料的方式獲取數(shù)據(jù),進(jìn)而增加了大模型的不穩(wěn)定和不安全的風(fēng)險。

第一,中文語料總量占比較低。長久以來,互聯(lián)網(wǎng)中文內(nèi)容的占比長期處于劣勢,中文語料總量積累明顯不足。根據(jù)W3Techs提供的實時統(tǒng)計顯示,全球互聯(lián)網(wǎng)中文內(nèi)容僅占全部內(nèi)容的1.2%,相較之下英文內(nèi)容占比則高達(dá)49.9%。[20]使用人口、傳播范圍和國際影響力上的差距導(dǎo)致了中英文語料在總量上的差距。IDC于2023年發(fā)布的報告顯示,中文語料數(shù)據(jù)年均增長速度為26.3%,預(yù)計在2027年將達(dá)到76.6ZB,然而相較近2000ZB的互聯(lián)網(wǎng)數(shù)據(jù)總量而言依舊微小。[21]中英文語料總量差距的一個直接反映是中文開源訓(xùn)練數(shù)據(jù)集規(guī)模不足,英文開源數(shù)據(jù)集在GPT系列訓(xùn)練數(shù)據(jù)中規(guī)模非常龐大,而中文模型開發(fā)者可利用的網(wǎng)絡(luò)開源數(shù)據(jù)集數(shù)量卻十分有限,這種開源數(shù)據(jù)集數(shù)量上的不足導(dǎo)致中文模型的開發(fā)高度依賴自有業(yè)務(wù)產(chǎn)生和商業(yè)采購的數(shù)據(jù),對缺乏互聯(lián)網(wǎng)業(yè)務(wù)積累和充盈資金投入的AI初創(chuàng)企業(yè)十分不友好。

第二,中文語料總體質(zhì)量較低。中文高質(zhì)量語料的積累周期較短,難以形成足夠規(guī)模和水平的高質(zhì)量數(shù)據(jù)池,其總體質(zhì)量不及英文語料庫??捎瞄_源數(shù)據(jù)集在整體數(shù)據(jù)池中的占比低,是導(dǎo)致中文高質(zhì)量語料不足的主要原因之一。開源數(shù)據(jù)集經(jīng)過爬取、清洗和結(jié)構(gòu)化等工序后形成,數(shù)據(jù)質(zhì)量通常高于原始數(shù)據(jù)。而我國可用開源數(shù)據(jù)集數(shù)量稀缺,迫使企業(yè)轉(zhuǎn)向其他數(shù)據(jù)來源,這導(dǎo)致大量網(wǎng)頁語料未能經(jīng)過系統(tǒng)收集和加工,降低了中文語料的整體質(zhì)量水平。高質(zhì)量語料積累薄弱的另一個原因在于公共數(shù)據(jù)開放深度和統(tǒng)一度的不足。[22]我國公共數(shù)據(jù)的積累可以追溯至2015年前后的智慧城市建設(shè)時期,公共數(shù)據(jù)開放逐漸被嫁接在電子政務(wù)建設(shè)的邏輯上展開。[23]各地政府隨后出臺了相關(guān)規(guī)范,但全國范圍內(nèi)長期未能建立統(tǒng)一的數(shù)據(jù)開放平臺。我國各級政府部門掌握了50%~80%的信息數(shù)據(jù)資源,這些資源至今仍未被有效整合和利用。

第三,中文語料匱乏引發(fā)語料供給困境。中文語料數(shù)量和質(zhì)量的雙重不足,給國內(nèi)大模型的開發(fā)帶來了巨大的語料供給困境,迫使開發(fā)企業(yè)選擇翻譯外文語料或降低質(zhì)量標(biāo)準(zhǔn)等手段進(jìn)行大模型的訓(xùn)練。作為幫助模型建立聯(lián)系的素材,訓(xùn)練語料應(yīng)當(dāng)盡可能準(zhǔn)確地反映真實、客觀的規(guī)律,而翻譯外文語料和使用低質(zhì)語料可能降低語料內(nèi)容的準(zhǔn)確性,增加模型內(nèi)容的安全隱患。2023年12月,OpenAI關(guān)停了字節(jié)跳動的GPT服務(wù)賬戶及相關(guān)API,理由是后者利用所提取的GPT數(shù)據(jù)開發(fā)自己的大模型,這明顯違反了服務(wù)協(xié)議中的條款。[24]從其他模型中提取語料的行為,不僅可能違反服務(wù)提供者設(shè)定的規(guī)則,還可能在承認(rèn)數(shù)據(jù)具有財產(chǎn)屬性的前提下被認(rèn)定為侵權(quán)行為。此外,語料供給困境還可能導(dǎo)致企業(yè)圍繞有限的語料展開過度競爭。研究發(fā)現(xiàn),模型生成語料的反復(fù)投喂,可能導(dǎo)致后續(xù)模型能力的下降乃至模型發(fā)散,形成“模型退化”現(xiàn)象。[25]若放任行業(yè)長期圍繞語料的獲取進(jìn)行過度競爭,會使數(shù)字企業(yè)的數(shù)據(jù)共享意愿持續(xù)下降,進(jìn)一步加劇數(shù)據(jù)流通不暢和高質(zhì)量語料積累不足的困境,造成AI產(chǎn)業(yè)發(fā)展的惡性循環(huán)。

訓(xùn)練數(shù)據(jù)語料庫總體來源匱乏。訓(xùn)練數(shù)據(jù)語料庫的來源匱乏也是目前制約人工智能發(fā)展的關(guān)鍵問題,我國在網(wǎng)絡(luò)數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領(lǐng)域數(shù)據(jù)等外部來源數(shù)據(jù)方面存在明顯不足,大模型廠商內(nèi)部的合成數(shù)據(jù)尚未形成規(guī)模,擬出臺的嚴(yán)格合規(guī)要求進(jìn)一步限制了可用數(shù)據(jù)的范圍,使得我國的AI大模型在訓(xùn)練數(shù)據(jù)上面臨嚴(yán)峻挑戰(zhàn)。

一方面,外部來源數(shù)據(jù)不足。目前常見的外部來源數(shù)據(jù)通常包含網(wǎng)絡(luò)數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領(lǐng)域數(shù)據(jù)等,相比之下,美國訓(xùn)練數(shù)據(jù)語料庫中的外部來源數(shù)據(jù)十分充足,而我國的訓(xùn)練數(shù)據(jù)語料庫則相對單薄。在網(wǎng)絡(luò)數(shù)據(jù)方面,美國擁有龐大的網(wǎng)絡(luò)數(shù)據(jù)容量和豐富的開源數(shù)據(jù)資源,企業(yè)能夠通過合規(guī)爬蟲技術(shù)輕松獲取數(shù)據(jù);而我國網(wǎng)絡(luò)建設(shè)起步晚,網(wǎng)絡(luò)數(shù)據(jù)積累量小,擁有較大數(shù)據(jù)量的平臺不愿公開自身數(shù)據(jù),導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)總量遠(yuǎn)不及美國。在線下數(shù)據(jù)方面,模型廠商需要將該部分?jǐn)?shù)據(jù)電子化后才能用來訓(xùn)練,美國對線下數(shù)據(jù)進(jìn)行了高度電子化,主要的學(xué)術(shù)期刊和論文幾乎全部實現(xiàn)了在線獲??;而我國電子化程度較低,許多圖書、期刊和論文等仍主要以紙質(zhì)形式存在,線下數(shù)據(jù)難以被充分利用。在公共數(shù)據(jù)方面,美國聯(lián)邦政府要求公共數(shù)據(jù)“應(yīng)開盡開”,并建立了聯(lián)邦層面統(tǒng)一數(shù)據(jù)開放平臺,鼓勵社會力量探索公共數(shù)據(jù)的應(yīng)用;而我國公共數(shù)據(jù)的開放程度仍有不足,僅對少數(shù)數(shù)據(jù)集提供了API接口,大部分優(yōu)質(zhì)公共數(shù)據(jù)仍未開放。在領(lǐng)域數(shù)據(jù)方面,領(lǐng)域數(shù)據(jù)通常由專業(yè)部門在從事專門知識勞動中長期積累而來,由于美國公開的數(shù)據(jù)政策和獲取機(jī)制,其領(lǐng)域數(shù)據(jù)共享較為暢通;而我國相關(guān)權(quán)利主體出于商業(yè)利益和數(shù)據(jù)安全等考慮,缺乏共享領(lǐng)域數(shù)據(jù)的積極性,整體領(lǐng)域數(shù)據(jù)流通程度較低。

另一方面,內(nèi)部合成數(shù)據(jù)缺失。內(nèi)部合成數(shù)據(jù)來源于對真實數(shù)據(jù)集的建模、提取和合成,既能補(bǔ)充真實數(shù)據(jù)的不足,又能在保護(hù)隱私的同時提供大量多樣化的訓(xùn)練材料,在模型訓(xùn)練中發(fā)揮著至關(guān)重要的作用。隨著AI大模型的發(fā)展,內(nèi)部合成數(shù)據(jù)在訓(xùn)練數(shù)據(jù)中的比例逐漸增加。2021年,所有人工智能訓(xùn)練數(shù)據(jù)中只有1%是合成數(shù)據(jù),到2024年底,這一比例將達(dá)到60%,據(jù)Gartner預(yù)測,未來用于訓(xùn)練機(jī)器學(xué)習(xí)模型的大多數(shù)數(shù)據(jù)將是自動生成的合成數(shù)據(jù)。[26]然而,與國際領(lǐng)先企業(yè)相比,我國在合成數(shù)據(jù)技術(shù)和應(yīng)用上的起步較晚,國內(nèi)大模型廠商在內(nèi)部合成數(shù)據(jù)方面的儲備明顯不足,缺乏足夠的經(jīng)驗和技術(shù)積累,導(dǎo)致目前我國企業(yè)的內(nèi)部合成數(shù)據(jù)在整體訓(xùn)練數(shù)據(jù)中的占比較低。這種差距不僅體現(xiàn)在數(shù)據(jù)總量上,更對數(shù)據(jù)質(zhì)量和多樣性產(chǎn)生了深遠(yuǎn)影響,限制了AI技術(shù)在更廣泛領(lǐng)域的應(yīng)用潛力。

訓(xùn)練數(shù)據(jù)語料庫缺少結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)在語料庫模型訓(xùn)練中起著重要作用。與非結(jié)構(gòu)化數(shù)據(jù)相比,標(biāo)準(zhǔn)統(tǒng)一、格式一致的數(shù)據(jù)資源更易于理解和利用。然而,目前我國在訓(xùn)練數(shù)據(jù)語料庫建設(shè)中面臨線下數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)的泛化、公共數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)的缺失以及網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量低下等問題,這些問題在不同程度上制約了語料庫的訓(xùn)練與發(fā)展。

第一,線下數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)泛化。線下元數(shù)據(jù)標(biāo)準(zhǔn)不一以及結(jié)構(gòu)化的缺失影響語料庫訓(xùn)練的效率與質(zhì)量。一方面,線下元數(shù)據(jù)的適用標(biāo)準(zhǔn)不統(tǒng)一。用于語料庫訓(xùn)練的元數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn),元數(shù)據(jù)字段缺失使得以元數(shù)據(jù)為基礎(chǔ)的查詢變得極為困難,進(jìn)而降低了語料庫的易用性;另一方面,線下數(shù)據(jù)結(jié)構(gòu)化表示缺乏。如知識圖譜、關(guān)系數(shù)據(jù)庫等模式的結(jié)構(gòu)化數(shù)據(jù)表示可以最大程度上方便數(shù)據(jù)的分析與利用,且包括文本數(shù)據(jù)、任意交錯圖像等在內(nèi)的各種數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的多模態(tài)語料庫可以獲得原生支持多模態(tài)任務(wù)的能力。[27]現(xiàn)有線下數(shù)據(jù)大多以純文本的形式予以儲存,圖片、音頻等數(shù)據(jù)難以被有效利用。以北京市為例,截至2024年5月,北京市人工智能高質(zhì)量數(shù)據(jù)集服務(wù)平臺已經(jīng)上線287個語料數(shù)據(jù)集,總規(guī)模超過500T。其中圖像集33項,音頻集77項,文本仍然是主要的語料形態(tài)。[28]

第二,公共數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)缺失。各地方公共數(shù)據(jù)開放接口及格式標(biāo)準(zhǔn)的差異化,導(dǎo)致語料庫建設(shè)缺乏高質(zhì)量公共數(shù)據(jù)作為訓(xùn)練依據(jù),嚴(yán)重阻礙了語料庫的發(fā)展。一方面,各地方公共數(shù)據(jù)開放接口存在差異,部分省市并未建立起統(tǒng)一的開放接口對外提供數(shù)據(jù)資源。根據(jù)《中國地方公共數(shù)據(jù)開放利用報告 省域(2023年版)》的數(shù)據(jù)顯示,部分省市未上線統(tǒng)一的公共數(shù)據(jù)開放平臺,也未制定統(tǒng)一的公共數(shù)據(jù)開放標(biāo)準(zhǔn),導(dǎo)致不同地區(qū)之間數(shù)據(jù)開放接口存在顯著差異。[29]另一方面,各地方公共數(shù)據(jù)開放格式存在差異。部分省市數(shù)據(jù)開放格式不清、標(biāo)準(zhǔn)混亂,一定程度上阻礙了數(shù)據(jù)有效利用。例如,杭州市于2023年9月發(fā)布了《杭州市公共數(shù)據(jù)授權(quán)運營實施方案(試行)》,實施公共數(shù)據(jù)授權(quán)運營管理,建立統(tǒng)一數(shù)據(jù)開放格式,顯著提升了數(shù)據(jù)質(zhì)量與利用效率。反觀東北、西南部分地區(qū),數(shù)據(jù)開放標(biāo)準(zhǔn)化進(jìn)程則略微滯后,其在開放格式統(tǒng)一、開放接口標(biāo)準(zhǔn)化方面尚未取得顯著進(jìn)展。

第三,網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量低下。無效語料過多、缺乏高質(zhì)量數(shù)據(jù),導(dǎo)致人工智能語料庫的整體質(zhì)量較低。首先,數(shù)據(jù)源質(zhì)量參差不齊。網(wǎng)絡(luò)數(shù)據(jù)生成于不同渠道,如來自用戶生成、社交媒體、開放數(shù)據(jù)平臺等,不同來源渠道的數(shù)據(jù)質(zhì)量具有較大差異,不加區(qū)分統(tǒng)一用于數(shù)據(jù)訓(xùn)練導(dǎo)致語料庫質(zhì)量較低。其次,數(shù)據(jù)真實性難以驗證?;ヂ?lián)網(wǎng)作為包容開放的數(shù)據(jù)平臺,并未建立起針對數(shù)據(jù)真實性進(jìn)行審查的運行機(jī)制,網(wǎng)絡(luò)平臺內(nèi)容魚龍混雜,導(dǎo)致數(shù)據(jù)真實性難以保證。最后,數(shù)據(jù)質(zhì)量完善管理制度缺失。目前網(wǎng)絡(luò)平臺缺乏完善的數(shù)據(jù)質(zhì)量管理標(biāo)準(zhǔn)與機(jī)制,難以剔除數(shù)據(jù)中的違法信息等不安全因素。訓(xùn)練語料庫所需的大量數(shù)據(jù)多為無標(biāo)注數(shù)據(jù),這些數(shù)據(jù)容易存在偏見、歧視,甚至包含侮辱、仇恨、暴力、色情等有害內(nèi)容[30],導(dǎo)致用于訓(xùn)練語料庫的數(shù)據(jù)存在一定的合規(guī)風(fēng)險,加大了語料庫模型的訓(xùn)練難度。

綜合來看,我國訓(xùn)練數(shù)據(jù)語料庫建設(shè)面臨著多重挑戰(zhàn)和限制,數(shù)據(jù)總量和質(zhì)量問題、數(shù)據(jù)來源匱乏、結(jié)構(gòu)化數(shù)據(jù)不足等都亟須解決。在未來,只有逐步建成訓(xùn)練數(shù)據(jù)多樣性和豐富性的語料庫,才能為人工智能大模型的訓(xùn)練和應(yīng)用提供充足的數(shù)據(jù)支撐,突破制約人工智能發(fā)展的數(shù)據(jù)瓶頸,進(jìn)一步推動人工智能技術(shù)的發(fā)展和產(chǎn)業(yè)化進(jìn)程。

訓(xùn)練數(shù)據(jù)語料庫建設(shè)的障礙與成因

網(wǎng)絡(luò)數(shù)據(jù)采集的違規(guī)風(fēng)險高。網(wǎng)絡(luò)富集大量語料數(shù)據(jù),但網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量參差不齊,并不都能夠滿足模型訓(xùn)練的基本要求。網(wǎng)絡(luò)數(shù)據(jù)爬取是語料數(shù)據(jù)的重要來源,即使是結(jié)構(gòu)化的開源數(shù)據(jù)集大多也由經(jīng)過初步加工后的爬取數(shù)據(jù)構(gòu)成。此外,在數(shù)據(jù)發(fā)揮重要經(jīng)濟(jì)價值的當(dāng)下,網(wǎng)絡(luò)數(shù)據(jù)采集面臨來自數(shù)據(jù)持有者、原始數(shù)據(jù)權(quán)利人等多方的利益訴求,數(shù)據(jù)權(quán)益復(fù)雜交織,網(wǎng)絡(luò)數(shù)據(jù)爬取面臨著較高的違法違規(guī)風(fēng)險。截至2023年12月,我國域名總量為3160萬個,活躍App數(shù)量高達(dá)260萬款。[31]在商業(yè)采買價格機(jī)制尚未固定,平臺共享數(shù)據(jù)意愿不足的現(xiàn)狀下,巨大網(wǎng)絡(luò)空間潛藏的海量網(wǎng)絡(luò)數(shù)據(jù)成為人工智能企業(yè)訓(xùn)練數(shù)據(jù)語料庫的首選來源。然而,爬取網(wǎng)絡(luò)數(shù)據(jù)行為的合法邊界仍模糊不清。網(wǎng)絡(luò)數(shù)據(jù)的防爬取措施成為判斷爬取行為合法性邊界的重要因素。破壞性爬取行為一般被認(rèn)為打破了網(wǎng)絡(luò)數(shù)據(jù)共享承載的公共利益和平臺數(shù)據(jù)權(quán)益的平衡,往往作為違法性的判定標(biāo)準(zhǔn)。我國法院肯定了單方聲明的Robots協(xié)議具有告知和引導(dǎo)作用,違反Robots協(xié)議的行為可能屬于違反商業(yè)道德的范疇,但并不承認(rèn)Robots協(xié)議對雙方具有法律約束力。學(xué)者們也逐漸認(rèn)為不宜將之作為判斷爬取行為合法性的唯一依據(jù)。[32]由此可見,網(wǎng)絡(luò)數(shù)據(jù)爬取的合法性邊界不斷隨著實踐產(chǎn)生爭議并變化,人工智能企業(yè)始終無法獲得明確穩(wěn)定的行為指引。

在激烈產(chǎn)業(yè)競爭和模糊行為邊界交織作用下,平臺一方面努力爬取網(wǎng)絡(luò)數(shù)據(jù),另一方面高筑數(shù)據(jù)壁壘防止競爭對手免費獲取自身數(shù)據(jù)。這導(dǎo)致目前中文模型的訓(xùn)練高度依賴企業(yè)的自有業(yè)務(wù)數(shù)據(jù),大模型的訓(xùn)練數(shù)據(jù)總體規(guī)模和質(zhì)量進(jìn)一步受限。授權(quán)使用制度存在的低效率短板則在短期內(nèi)阻斷了模型廠商通過共享訓(xùn)練數(shù)據(jù)獲得回報激勵的可能,也導(dǎo)致分散訓(xùn)練的效率低下。在授權(quán)使用的框架下,多個大模型廠商均須承擔(dān)交易談判的時間成本與經(jīng)濟(jì)成本,降低了大模型產(chǎn)業(yè)整體生產(chǎn)效率。更令人擔(dān)憂的是,大模型的市場前景吸引幾乎所有掌握大量數(shù)據(jù)的平臺企業(yè)布局,這加劇了這一市場獲取訓(xùn)練數(shù)據(jù)的競爭。受到競爭利益驅(qū)動,企業(yè)獨占數(shù)據(jù)資源的意圖進(jìn)一步被強(qiáng)化。[33]在此背景下,平臺企業(yè)不斷加強(qiáng)防爬取措施、設(shè)置數(shù)據(jù)壁壘,給網(wǎng)絡(luò)數(shù)據(jù)爬取制造巨大的技術(shù)和法律障礙。

線下數(shù)據(jù)利用支持力度不足。人工智能的實質(zhì)性突破依賴訓(xùn)練數(shù)據(jù)的爆發(fā)式增長和高效利用,圖書、期刊、報紙等線下載體作為傳統(tǒng)數(shù)據(jù)承載方式之一,對于完善訓(xùn)練數(shù)據(jù)語料庫意義重大。線下語料成為訓(xùn)練數(shù)據(jù)的前提是實現(xiàn)電子化,但我國線下數(shù)據(jù)電子化進(jìn)程相對滯后。第一,加工深度淺。數(shù)據(jù)電子化過程沒有進(jìn)一步的結(jié)構(gòu)化和分析,應(yīng)用價值低。第二,標(biāo)準(zhǔn)化程度低。電子化數(shù)據(jù)缺乏統(tǒng)一的元數(shù)據(jù)格式、編碼和術(shù)語,使得數(shù)據(jù)的互通和整合變得更加困難。第三,準(zhǔn)確性低。電子數(shù)據(jù)輸入錯誤、處理不當(dāng)或更新不及時,導(dǎo)致數(shù)據(jù)準(zhǔn)確性大打折扣。第四,可復(fù)用性差。電子數(shù)據(jù)的格式、結(jié)構(gòu)或權(quán)限設(shè)置不合理,無法支持多種應(yīng)用場景和分析需求。

線下數(shù)據(jù)除了電子化嚴(yán)重不足,還存在取得授權(quán)的制度障礙。線下數(shù)據(jù)一般受到著作權(quán)保護(hù),著作權(quán)的集體授權(quán)制度難以有效支持大模型訓(xùn)練數(shù)據(jù)的需求。首先,現(xiàn)有的著作權(quán)集體管理組織規(guī)模尚不能適應(yīng)模型開發(fā)者對數(shù)據(jù)規(guī)?;玫男枨?。2015、2016兩年全國著作權(quán)侵權(quán)案件約6000件,我國規(guī)模最大的著作權(quán)集體管理組織——中國音樂著作權(quán)協(xié)會——直接承辦的民事訴訟總數(shù)僅41件。[34]其次,傳統(tǒng)集體管理組織存在運作低效、功能減弱、模式壟斷等問題。例如,在美國,以YouTube為代表的數(shù)字平臺濫用有關(guān)網(wǎng)絡(luò)責(zé)任的版權(quán)法律,這些數(shù)字平臺聲稱他們對其向公眾提供的音樂不承擔(dān)責(zé)任,并拒絕像其他數(shù)字服務(wù)商那樣獲得正規(guī)音樂授權(quán)。面對全新技術(shù)壟斷,著作權(quán)人可獲得的救濟(jì)途徑極為有限,所面臨的侵權(quán)形勢極為嚴(yán)峻。[35]最后,“事前授權(quán)”模式難以滿足人工智能時代海量學(xué)習(xí)的需求。人工智能的發(fā)展依賴于對海量數(shù)據(jù)的獲取,即通過數(shù)據(jù)訓(xùn)練和迭代大模型,從而實現(xiàn)高質(zhì)量內(nèi)容的生成。傳統(tǒng)授權(quán)模式涉及高昂的交易成本和反復(fù)的利益談判等,限制了數(shù)據(jù)的大規(guī)模獲取,將限制數(shù)據(jù)價值的充分挖掘,完全無法滿足訓(xùn)練數(shù)據(jù)語料庫建設(shè)需求。[36]

著作權(quán)的合理使用制度是否適用于線下數(shù)據(jù)仍不明確。對于人工智能訓(xùn)練數(shù)據(jù)而言,如果不依托授權(quán)制度而是借助著作權(quán)中的合理使用豁免而獲取和利用,可以降低訓(xùn)練數(shù)據(jù)成本,提高語料庫構(gòu)建和更新效率。在當(dāng)今“產(chǎn)學(xué)研”結(jié)合大趨勢下,人工智能技術(shù)的進(jìn)步和商業(yè)主體創(chuàng)新能力及社會責(zé)任承擔(dān)能力不斷提升,科學(xué)技術(shù)研究不再僅僅發(fā)生在大學(xué)實驗室,而將更多地發(fā)生在企業(yè)中。此種情形下“非商業(yè)性主體”的限制,極大地壓縮了其合理使用的空間。數(shù)字時代下,傳統(tǒng)著作權(quán)合理使用的條件在適用主體方面有限且對是否適用于線下數(shù)據(jù)仍不明確。

公共數(shù)據(jù)開放廣度深度欠缺。我國公共數(shù)據(jù)占整個數(shù)據(jù)量的比重達(dá)到了70%~80%,開放公共數(shù)據(jù)對人工智能訓(xùn)練語料庫建設(shè)意義重大。雖然我國在公共數(shù)據(jù)開放層面取得了一定進(jìn)步,但仍存在開放廣度與深度欠缺的問題。第一,公共數(shù)據(jù)開放深度不足影響模型訓(xùn)練質(zhì)量。公共數(shù)據(jù)的開放深度不足,導(dǎo)致其在人工智能模型訓(xùn)練中的利用率低下,進(jìn)而影響模型訓(xùn)練的準(zhǔn)確性和效率。在數(shù)據(jù)層級方面,我國披露的公共數(shù)據(jù)多為統(tǒng)計數(shù)據(jù),但對于大模型數(shù)據(jù)訓(xùn)練而言,統(tǒng)計數(shù)據(jù)的作用遠(yuǎn)不如原始數(shù)據(jù)。原始數(shù)據(jù)才更符合人工智能的訓(xùn)練需要,有利于提升模型多線程處理與推理預(yù)測能力。在開放質(zhì)量方面,我國公共數(shù)據(jù)開放缺乏統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)和格式,機(jī)器可讀性差,導(dǎo)致數(shù)據(jù)難以得到整合和利用。由于不同部門之間缺乏有效的協(xié)調(diào)和合作機(jī)制,數(shù)據(jù)管理標(biāo)準(zhǔn)不一、大量數(shù)據(jù)重復(fù)采集、數(shù)據(jù)內(nèi)容矛盾沖突,增大了數(shù)據(jù)治理工作的難度。

第二,公共數(shù)據(jù)授權(quán)運營規(guī)則不明確阻礙開放進(jìn)程。公共數(shù)據(jù)的權(quán)屬問題不明確,引發(fā)了公共數(shù)據(jù)授權(quán)運營的權(quán)利與收益分配障礙。目前公共數(shù)據(jù)的確權(quán)授權(quán)機(jī)制尚在探索之中,而其在人工智能模型訓(xùn)練中的運用更加劇了問題的復(fù)雜性,還需進(jìn)一步的法律明確和規(guī)范。公共數(shù)據(jù)授權(quán)運營兼具營利性與公益性。營利性與公益性的沖突問題導(dǎo)致公共數(shù)據(jù)授權(quán)運營的制度定位、運營主體確定、收益分配模式等方面的規(guī)則尚不明確。這直接影響公共數(shù)據(jù)授權(quán)運營的實踐效果,同時也阻礙了公共數(shù)據(jù)在人工智能模型訓(xùn)練中的應(yīng)用。鑒于公共數(shù)據(jù)特有的強(qiáng)公共屬性,其授權(quán)運營形成了國家、市場主體和一般民眾的三角關(guān)系。由于缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,將公共數(shù)據(jù)用于人工智能模型訓(xùn)練中可能引發(fā)的數(shù)據(jù)安全風(fēng)險、數(shù)據(jù)濫用、數(shù)據(jù)壟斷等問題,亟待通過更加明確的開放范圍、授權(quán)條件、使用限制和責(zé)任分配等規(guī)則解決。

第三,公共數(shù)據(jù)授權(quán)運營與模型訓(xùn)練需求存在沖突。一方面,目前在我國公共數(shù)據(jù)授權(quán)運營實踐中,市場收益模式分為面向公益性服務(wù)的“免費或公益性收費”模式和面向運營型活動的“市場化定價”模式。然而人工智能模型尤其是在預(yù)訓(xùn)練階段的營利性質(zhì)難以界定。即使人工智能模型服務(wù)被認(rèn)為是商業(yè)運營活動,人工智能模型本身的訓(xùn)練是否能被單純評價為“運營活動”,仍存在較大爭議。另一方面,人工智能模型的迭代與進(jìn)步需要投喂海量數(shù)據(jù)用以訓(xùn)練支撐。即使授權(quán)運營數(shù)據(jù)的定價模式以“成本覆蓋”為原則,模型訓(xùn)練對數(shù)據(jù)的大規(guī)模獲取需求,也將導(dǎo)致成本過高而使企業(yè)難以負(fù)擔(dān)的問題,在一定程度上將限制公共數(shù)據(jù)價值的充分挖掘。

領(lǐng)域數(shù)據(jù)權(quán)屬交易規(guī)則不明。領(lǐng)域數(shù)據(jù)主要是指在垂直領(lǐng)域開展行業(yè)活動中收集和產(chǎn)生的數(shù)據(jù),已成為人工智能領(lǐng)域發(fā)展的核心基建和關(guān)鍵驅(qū)動力。領(lǐng)域數(shù)據(jù)以應(yīng)用質(zhì)量高、匹配度強(qiáng)及價值密度大的優(yōu)勢,展現(xiàn)了其對人工智能專業(yè)模型層學(xué)習(xí)能力深化提升的核心作用,對工業(yè)生產(chǎn)、科學(xué)教育、自動駕駛、金融醫(yī)療等行業(yè)的發(fā)展至關(guān)重要。

領(lǐng)域數(shù)據(jù)專業(yè)門檻高與積累周期長等特性,增加了數(shù)據(jù)流通共享、升級獲取難度。第一,領(lǐng)域數(shù)據(jù)權(quán)利方出于商業(yè)利益等因素考慮,表現(xiàn)出“謹(jǐn)慎流通、風(fēng)險規(guī)避”的立場。當(dāng)前,領(lǐng)域數(shù)據(jù)主要集中掌握在網(wǎng)絡(luò)平臺、醫(yī)院、高校院所等企業(yè)或單位手中,其憑借在數(shù)據(jù)流通中的數(shù)據(jù)資源樞紐位置,收集海量原始數(shù)據(jù)后進(jìn)行脫敏清洗等處理活動,形成集合性數(shù)據(jù)資源。以美國特斯拉公司為例,其完全自動駕駛測試版(FSD)系統(tǒng)的總行駛里程已達(dá)約4.83億公里,并表示其數(shù)據(jù)資源對產(chǎn)品市場競爭力提升至關(guān)重要。[37]第二,領(lǐng)域數(shù)據(jù)領(lǐng)域具有主體多維復(fù)雜等特性,成為數(shù)據(jù)“固守”的主要誘因。以醫(yī)療領(lǐng)域為例,醫(yī)療健康數(shù)據(jù)不僅是信息載體,更直接關(guān)系到個人隱私、健康狀況乃至生命安全。領(lǐng)域數(shù)據(jù)權(quán)利方迫于數(shù)據(jù)安全責(zé)任、嚴(yán)格合規(guī)要求等多重壓力,對領(lǐng)域數(shù)據(jù)共享持保守態(tài)度。

領(lǐng)域數(shù)據(jù)交易意愿低迷,阻礙領(lǐng)域數(shù)據(jù)價值釋放。第一,領(lǐng)域數(shù)據(jù)權(quán)屬不明引發(fā)數(shù)據(jù)資源利益分配沖突。2022年12月19日,中共中央、國務(wù)院發(fā)布《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡稱“數(shù)據(jù)二十條”),提出“推動數(shù)據(jù)產(chǎn)權(quán)結(jié)構(gòu)性分置和有序流通”,但我國立法針對數(shù)據(jù)權(quán)屬問題尚未進(jìn)行明確細(xì)致規(guī)定。一方面,領(lǐng)域數(shù)據(jù)的權(quán)利性質(zhì)不明。領(lǐng)域數(shù)據(jù)區(qū)別于有體物、知識產(chǎn)權(quán)等客體,其權(quán)利性質(zhì)需進(jìn)一步明確。另一方面,領(lǐng)域數(shù)據(jù)涉及利益主體多維復(fù)雜,權(quán)屬分配規(guī)則不清。從領(lǐng)域數(shù)據(jù)交易環(huán)節(jié)來看,至少有數(shù)據(jù)來源主體、數(shù)據(jù)控制者、數(shù)據(jù)需求方三方主體可以主張相應(yīng)的權(quán)利。領(lǐng)域數(shù)據(jù)權(quán)利方缺乏獲得合理回報的收益分配機(jī)制,數(shù)據(jù)要素供給激勵機(jī)制未完善,導(dǎo)致數(shù)據(jù)供給意愿不強(qiáng)。第二,領(lǐng)域數(shù)據(jù)可能包含個人數(shù)據(jù)、重要數(shù)據(jù)等,數(shù)據(jù)交易存在多層法律風(fēng)險。如地理數(shù)據(jù)關(guān)系國家主權(quán)、安全和發(fā)展利益。[38]領(lǐng)域數(shù)據(jù)交易中上下游均需承擔(dān)更為嚴(yán)格的安全保護(hù)義務(wù),呈現(xiàn)責(zé)任鏈條廣泛連帶、合規(guī)嚴(yán)格約束的特性。[39]

領(lǐng)域數(shù)據(jù)交易規(guī)范體系不健全,難以形成合力推動領(lǐng)域數(shù)據(jù)經(jīng)濟(jì)的發(fā)展。實踐中,領(lǐng)域數(shù)據(jù)交易模式主要為一對一、點對點的場外商談模式,交易方式包括直接轉(zhuǎn)移數(shù)據(jù)及API接口調(diào)用,交易規(guī)則主要為交易雙方自主商議約定。場內(nèi)場外相結(jié)合的統(tǒng)一交易制度規(guī)范的缺位,給交易市場的進(jìn)一步發(fā)展造成了極大阻礙。第一,領(lǐng)域數(shù)據(jù)定價機(jī)制的缺失,交易市場的規(guī)范化、標(biāo)準(zhǔn)化發(fā)展無法推進(jìn)。當(dāng)前數(shù)據(jù)市場主要的定價機(jī)制為數(shù)據(jù)供應(yīng)方自主定價以及供需雙方協(xié)議定價,難以準(zhǔn)確衡量數(shù)據(jù)應(yīng)有價值[40]。領(lǐng)域數(shù)據(jù)權(quán)利方在逐利性的驅(qū)動下可能出現(xiàn)價格欺詐、價格歧視、價格壟斷等不當(dāng)定價行為,需建立自主高效的數(shù)據(jù)定價體系,規(guī)制不當(dāng)數(shù)據(jù)定價行為,維護(hù)領(lǐng)域數(shù)據(jù)交易市場的公平和秩序。第二,領(lǐng)域數(shù)據(jù)交易質(zhì)量標(biāo)準(zhǔn)不一,交易市場的有序化、實踐化無法達(dá)成。當(dāng)前,領(lǐng)域數(shù)據(jù)交易中,領(lǐng)域數(shù)據(jù)類型、載體、呈現(xiàn)形式等均無統(tǒng)一界定標(biāo)準(zhǔn)。領(lǐng)域數(shù)據(jù)格式不規(guī)范、內(nèi)容不完整的問題容易導(dǎo)致整個交易市場的混亂局面,影響數(shù)據(jù)交易的順利進(jìn)行。

訓(xùn)練數(shù)據(jù)語料庫建設(shè)的制度協(xié)調(diào)與規(guī)則應(yīng)對

通過司法判例明確網(wǎng)絡(luò)數(shù)據(jù)來源合法性認(rèn)定條件。由于人工智能訓(xùn)練數(shù)據(jù)具有數(shù)量大、規(guī)模廣、價值密度低等特征,傳統(tǒng)的數(shù)據(jù)購買模式無法適應(yīng)模型開發(fā)者對數(shù)據(jù)規(guī)?;玫男枨?。目前由內(nèi)容平臺代理的著作權(quán)內(nèi)容多為單獨具有使用價值的作品,不包括用戶生成的海量數(shù)據(jù),網(wǎng)絡(luò)數(shù)據(jù)才是人工智能訓(xùn)練的主要材料,應(yīng)通過司法判例進(jìn)一步明確網(wǎng)絡(luò)數(shù)據(jù)來源合法性認(rèn)定條件。

首先,進(jìn)一步明確網(wǎng)絡(luò)數(shù)據(jù)可爬取范圍。網(wǎng)絡(luò)數(shù)據(jù)的可爬取范圍應(yīng)結(jié)合爬取客體、技術(shù)手段、行為目的三個方面進(jìn)行考量。爬取客體上,對于公開數(shù)據(jù)、半公開數(shù)據(jù)、非公開數(shù)據(jù)的保護(hù)程度應(yīng)有所不同。[41]網(wǎng)絡(luò)數(shù)據(jù)爬取應(yīng)嚴(yán)格限定于對公開數(shù)據(jù)的訪問,具體包括由政府、學(xué)術(shù)界和商業(yè)機(jī)構(gòu)出于促進(jìn)知識共享和技術(shù)創(chuàng)新的目的而開放的數(shù)據(jù)。技術(shù)手段上,爬取技術(shù)的設(shè)計和應(yīng)用應(yīng)恪守非侵入性原則,尊重并遵循網(wǎng)站的“爬蟲協(xié)議”和用戶協(xié)議,避免任何形式的技術(shù)規(guī)避行為。行為目的上,網(wǎng)絡(luò)數(shù)據(jù)爬取的行為必須服務(wù)于正當(dāng)目的,對于非商業(yè)性數(shù)據(jù)的爬取,應(yīng)以增進(jìn)公共利益為目標(biāo)。因此,基于科學(xué)研究應(yīng)用等大模型構(gòu)建信息基礎(chǔ)設(shè)施時是否應(yīng)適當(dāng)豁免,應(yīng)在司法裁判中予以充分考量。

其次,應(yīng)在司法判例中審慎判斷網(wǎng)絡(luò)數(shù)據(jù)爬取構(gòu)成競爭性使用的條件。判斷大模型訓(xùn)練是否構(gòu)成競爭性使用,需明確網(wǎng)絡(luò)平臺對其數(shù)據(jù)享有的權(quán)益。依據(jù)網(wǎng)絡(luò)平臺對數(shù)據(jù)的投入程度,可將平臺上的數(shù)據(jù)分為“平臺限定提供的數(shù)據(jù)”及“用戶生成的網(wǎng)頁數(shù)據(jù)”兩類,前者是平臺企業(yè)對其所收集的數(shù)據(jù)進(jìn)行脫敏、過濾、格式調(diào)整、加密、篩選等適度加工之后,采用技術(shù)手段進(jìn)行控制并僅向特定人提供的商業(yè)化數(shù)據(jù);后者是用戶直接提交給平臺,或者用戶在使用平臺過程中生成,直接展示在網(wǎng)頁上的數(shù)據(jù)。[42]對于前者,可能構(gòu)成企業(yè)數(shù)據(jù)財產(chǎn),對其未經(jīng)授權(quán)的獲取、披露和使用應(yīng)當(dāng)承擔(dān)相關(guān)責(zé)任。而后者應(yīng)當(dāng)重點判斷其“破壞性利用”的構(gòu)成、損害顯著和實質(zhì)性、實質(zhì)性替代與否以及用戶權(quán)益。

最后,由政府協(xié)調(diào)設(shè)立公共訓(xùn)練數(shù)據(jù)池、公共訓(xùn)練數(shù)據(jù)場,承擔(dān)生成式人工智能大模型訓(xùn)練數(shù)據(jù)語料庫的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)責(zé)任?,F(xiàn)有語料庫總體覆蓋面和規(guī)模依然不足,受制于數(shù)據(jù)孤島、數(shù)據(jù)污染問題,庫內(nèi)數(shù)據(jù)的采集依舊面臨來源稀缺的困境。語料形式缺乏統(tǒng)一標(biāo)準(zhǔn),不同的處理標(biāo)準(zhǔn)導(dǎo)致數(shù)據(jù)集語料類型及結(jié)構(gòu)差異明顯,不利于集約化管理,知識產(chǎn)權(quán)和數(shù)據(jù)安全合規(guī)方面的負(fù)擔(dān)同樣延緩了語料庫合法化建設(shè)步伐。在政府的示范引導(dǎo)下各方協(xié)同建設(shè)共享數(shù)據(jù)池,以助力數(shù)據(jù)語料庫迭代優(yōu)化是中國企業(yè)與行業(yè)發(fā)展的共同訴求。

協(xié)調(diào)版權(quán)規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界。傳統(tǒng)著作權(quán)“事前授權(quán)、使用付費”的交易模式難以滿足人工智能時代海量學(xué)習(xí)的需求。“事前授權(quán)”容易導(dǎo)致數(shù)據(jù)交易流程的冗雜以及交易效率的低下,“使用付費”容易產(chǎn)生包括數(shù)據(jù)獲取的識別成本以及數(shù)據(jù)交易的談判成本在內(nèi)的過高交易成本[43],這要求版權(quán)規(guī)則進(jìn)行突破協(xié)調(diào)以適配人工智能時代高價值數(shù)據(jù)獲取、流通、使用的需要。

第一,構(gòu)建訓(xùn)練數(shù)據(jù)合理使用制度。在人工智能預(yù)訓(xùn)練階段,可考慮認(rèn)定利用版權(quán)作品進(jìn)行訓(xùn)練原則上構(gòu)成合理使用。首先,就技術(shù)原理而言,大模型或是通過對特定類型作品的風(fēng)格、要素、體裁等公有領(lǐng)域的“思想”進(jìn)行學(xué)習(xí),進(jìn)而生成類似作品[44];或是對既有作品進(jìn)行具備“非特定性”的非表達(dá)性使用,進(jìn)而創(chuàng)造新的數(shù)據(jù)價值[45],其均非《中華人民共和國著作權(quán)法》應(yīng)當(dāng)規(guī)制的作品使用行為;其次,就社會效益而言,大模型運用高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練具有顯著的公共利益價值,對發(fā)揮數(shù)據(jù)的公共價值、發(fā)展生產(chǎn)力、增進(jìn)社會福祉、提升國際競爭力等有著顯著正向影響[46],將大模型訓(xùn)練納入合理使用范疇符合《中華人民共和國著作權(quán)法》激勵創(chuàng)新的制度目的;最后,就市場影響而言,大模型的輸出結(jié)果不必然對原訓(xùn)練作品的市場份額產(chǎn)生沖擊,因大模型具備通用能力和泛化能力,其應(yīng)用場景不局限于原作品的市場定位。但是,合理使用制度的構(gòu)建并不意味著對大模型訓(xùn)練的版權(quán)侵權(quán)全面豁免,對基于科學(xué)研究目的的大模型應(yīng)當(dāng)允許免費合理使用版權(quán)數(shù)據(jù)進(jìn)行訓(xùn)練,而對于商業(yè)應(yīng)用等大模型則應(yīng)當(dāng)針對具體個案全面權(quán)衡其原理、價值、市場影響等要素,綜合判斷其合法性。

第二,審慎認(rèn)定訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)及責(zé)任承擔(dān)方式。當(dāng)前,多種場景爭議下的司法判例的落實或?qū)⒊蔀槔迩逵?xùn)練數(shù)據(jù)合理使用邊界的關(guān)鍵。我國現(xiàn)有判例認(rèn)為,若案涉被侵權(quán)作品享有較高知名度,可推定具備接觸可能性,且人工智能模型生成結(jié)果在多個關(guān)鍵特征上與被侵權(quán)作品具有高度相似性,即可認(rèn)定為實質(zhì)性相似而構(gòu)成復(fù)制權(quán)和改編權(quán)侵權(quán)??梢姡?ldquo;實質(zhì)性相似”將是明確大模型訓(xùn)練數(shù)據(jù)使用合理性的邊界,法律應(yīng)當(dāng)保護(hù)的是大模型在已有作品基礎(chǔ)上的創(chuàng)新,而非對既有作品缺乏創(chuàng)造性的剽竊。對于大模型訓(xùn)練數(shù)據(jù)侵權(quán)的救濟(jì)手段,應(yīng)當(dāng)秉持審慎立場,綜合考慮大模型的應(yīng)用價值與對權(quán)利人的實際損害。一方面,應(yīng)當(dāng)盡量避免要求大模型開發(fā)者刪除涉嫌侵權(quán)的訓(xùn)練數(shù)據(jù),以避免導(dǎo)致大模型整體能力的不可控下降,從而給相關(guān)產(chǎn)業(yè)帶來過高負(fù)擔(dān);另一方面,應(yīng)當(dāng)結(jié)合被侵權(quán)作品的知名度與市場地位、侵權(quán)方的應(yīng)對措施、侵權(quán)行為的具體影響范圍、對產(chǎn)業(yè)發(fā)展的潛在影響等予以認(rèn)定,而不應(yīng)當(dāng)過高地認(rèn)定實際損害,以免為人工智能模型創(chuàng)新與應(yīng)用施加難以負(fù)擔(dān)的法律成本。

第三,完善版權(quán)作品相關(guān)方利益分配機(jī)制。一方面,允許版權(quán)方行使人工智能訓(xùn)練拒絕權(quán)將有助于維護(hù)版權(quán)方合法權(quán)益。另一方面,人工智能開發(fā)者也可主動采取措施令版權(quán)方參與利益分配。OpenAI開展版權(quán)屏障計劃,將介入并為使用其產(chǎn)品的企業(yè)提供版權(quán)侵權(quán)辯護(hù),并承諾承擔(dān)客戶因應(yīng)對相關(guān)知識產(chǎn)權(quán)訴訟而產(chǎn)生的法律費用。[47]在這一模式下,人工智能模型開發(fā)者作為大模型應(yīng)用的獲益者承擔(dān)相應(yīng)責(zé)任,有助于實現(xiàn)版權(quán)方和使用者等主體間的利益平衡,進(jìn)而推動版權(quán)保護(hù)與技術(shù)發(fā)展的共贏。

構(gòu)建開放機(jī)制滿足公共數(shù)據(jù)參與語料庫建設(shè)需求。構(gòu)建層次化的公共數(shù)據(jù)開放機(jī)制有利于推動公共數(shù)據(jù)深度參與人工智能訓(xùn)練數(shù)據(jù)語料庫建設(shè),使公共數(shù)據(jù)的開發(fā)利用價值在模型訓(xùn)練過程中得到充分挖掘。不同類型、價值的公共數(shù)據(jù)對應(yīng)不同的開放程度,公共數(shù)據(jù)開放機(jī)制可分為完全開放、有限開放與授權(quán)運營三個層次。

第一,構(gòu)建政府主導(dǎo)的公共數(shù)據(jù)完全開放機(jī)制。公共數(shù)據(jù)完全開放機(jī)制具有獲取方式的無償性、開放數(shù)據(jù)的原始化、獲取對象的不特定性等特征。具體而言,公共數(shù)據(jù)完全開放機(jī)制適用于不涉及國家秘密、商業(yè)秘密、個人隱私及敏感個人信息的原始數(shù)據(jù),具體包括信用、交通、衛(wèi)生、就業(yè)、教育等領(lǐng)域的原始數(shù)據(jù)開放。[48]公共數(shù)據(jù)完全開放機(jī)制應(yīng)當(dāng)由政府主導(dǎo),建立公共數(shù)據(jù)開放目錄以確定開放范圍,通過一體化、集中化的國家數(shù)據(jù)開放平臺匯集各省、市政府職能部門的各類原始數(shù)據(jù),以直接獲取或下載的方式免費向不特定的社會公眾開放,實現(xiàn)原始數(shù)據(jù)與語料庫之間的無障礙對接。

需要注意的是,原始數(shù)據(jù)雖然具有較高的開發(fā)利用價值,但也存在較大的不確定性和安全風(fēng)險。[49]政府在履行公共數(shù)據(jù)開放義務(wù)的同時,還應(yīng)當(dāng)建立公共數(shù)據(jù)開放安全風(fēng)險防控機(jī)制,采取技術(shù)、管理措施防范原始數(shù)據(jù)安全風(fēng)險,具體包括開放前的個人數(shù)據(jù)去標(biāo)識化處理、開放平臺的運營技術(shù)維護(hù)、開放過程中的動態(tài)安全監(jiān)測以及開放后的安全事件應(yīng)急預(yù)案等。

第二,構(gòu)建特定對象的公共數(shù)據(jù)有限開放機(jī)制。公共數(shù)據(jù)完全開放機(jī)制雖然能夠為語料庫建設(shè)提供一定量免費的原始數(shù)據(jù)資源,但面向全體社會公眾的無門檻開放必然會限制語料庫吸納更加優(yōu)質(zhì)的公共數(shù)據(jù)資源。未來,通用大模型市場或?qū)⒊尸F(xiàn)寡頭競爭格局,面向垂直領(lǐng)域的行業(yè)大模型將成為大模型產(chǎn)業(yè)競爭的主要領(lǐng)域。[50]與“無數(shù)不用”的通用大模型訓(xùn)練不同,行業(yè)大模型訓(xùn)練需要更加高質(zhì)量、專業(yè)化的公共數(shù)據(jù)供給。這些數(shù)據(jù)的數(shù)據(jù)量和敏感性不同于完全開放的公共數(shù)據(jù),對數(shù)據(jù)利用主體自身的數(shù)據(jù)安全管理水平、技術(shù)能力有著較高的要求。[51]公共數(shù)據(jù)有限開放機(jī)制以主體的準(zhǔn)入資格審核為前提,通過與行政機(jī)關(guān)簽署行政協(xié)議的方式獲取特定領(lǐng)域的公共數(shù)據(jù)資源。一方面,能夠滿足垂直領(lǐng)域的大模型企業(yè)對領(lǐng)域數(shù)據(jù)的特殊需求;另一方面,能夠防范優(yōu)質(zhì)公共數(shù)據(jù)的泄露、濫用、遭受攻擊等安全風(fēng)險。

第三,構(gòu)建面向市場的公共數(shù)據(jù)授權(quán)運營機(jī)制。區(qū)別于前兩種直接的公共數(shù)據(jù)開放機(jī)制,公共數(shù)據(jù)授權(quán)運營是一種間接開放機(jī)制,由行政機(jī)關(guān)授權(quán)特定運營主體對公共數(shù)據(jù)進(jìn)行加工,從而形成數(shù)據(jù)產(chǎn)品與服務(wù)提供給市場和社會。[52]公共數(shù)據(jù)授權(quán)運營有利于激發(fā)市場運營主體活力,釋放公共數(shù)據(jù)的經(jīng)濟(jì)價值,提升公共數(shù)據(jù)資源配置效率,實現(xiàn)數(shù)據(jù)要素市場的供需匹配。目前,公共數(shù)據(jù)授權(quán)運營實踐尚處于探索階段,主要存在行業(yè)主導(dǎo)、區(qū)域一體化以及場景牽引三種公共數(shù)據(jù)授權(quán)運營模式。[53]從促進(jìn)人工智能大模型創(chuàng)新研發(fā)的角度來看,基于特定應(yīng)用場景授權(quán)不同運營主體的場景牽引模式更有利于實現(xiàn)領(lǐng)域數(shù)據(jù)供需方之間的精準(zhǔn)匹配,進(jìn)一步推動金融、醫(yī)療、教育、自動駕駛等領(lǐng)域的垂類大模型訓(xùn)練數(shù)據(jù)語料庫建設(shè)。

協(xié)同促進(jìn)跨領(lǐng)域數(shù)據(jù)流通交易規(guī)則建立供給激勵。面向人工智能創(chuàng)新應(yīng)用的新時代,我國數(shù)據(jù)交易市場也應(yīng)轉(zhuǎn)型突破,適應(yīng)人工智能產(chǎn)業(yè)獲取訓(xùn)練數(shù)據(jù)的現(xiàn)實需求。就交易平臺而言,可針對人工智能訓(xùn)練市場,將現(xiàn)有的通用數(shù)據(jù)交易所轉(zhuǎn)型為“AI數(shù)據(jù)交易合同”模式,為企業(yè)訓(xùn)練人工智能提供定制化的訓(xùn)練數(shù)據(jù)。就交易標(biāo)準(zhǔn)而言,相關(guān)市場主體和監(jiān)管部門可共同規(guī)范訓(xùn)練語料的標(biāo)注標(biāo)準(zhǔn),便于語料數(shù)據(jù)的交易流通。就合同內(nèi)容而言,人工智能訓(xùn)練方需要遵循誠實信用原則,明確告知數(shù)據(jù)提供方相關(guān)數(shù)據(jù)的用途并獲得授權(quán),避免因超出授權(quán)范圍使用數(shù)據(jù)而面臨違約風(fēng)險。

“數(shù)據(jù)二十條”明確提出,“完善和規(guī)范數(shù)據(jù)流通規(guī)則,構(gòu)建促進(jìn)使用和流通、場內(nèi)場外相結(jié)合的交易制度體系,規(guī)范引導(dǎo)場外交易,培育壯大場內(nèi)交易”?,F(xiàn)階段,數(shù)據(jù)交易市場“內(nèi)冷外熱”,引導(dǎo)場外數(shù)據(jù)交易進(jìn)場交易,需建立健全場內(nèi)數(shù)據(jù)交易規(guī)則,為跨領(lǐng)域數(shù)據(jù)流通交易掃清制度障礙。

一是數(shù)據(jù)確權(quán)規(guī)則。首先,探索建立數(shù)據(jù)資產(chǎn)登記確權(quán)制度。數(shù)據(jù)資產(chǎn)登記能夠推動跨領(lǐng)域的數(shù)據(jù)資源向數(shù)據(jù)資產(chǎn)的轉(zhuǎn)化,發(fā)揮數(shù)據(jù)資產(chǎn)登記的證明功能,消除跨領(lǐng)域企業(yè)入場門檻。其次,規(guī)范數(shù)據(jù)資產(chǎn)價值評估體系。數(shù)據(jù)資產(chǎn)價值受數(shù)據(jù)質(zhì)量、時效、類型等多種因素影響,價值不確定性增加了評估難度,應(yīng)細(xì)化評估指標(biāo),綜合運用風(fēng)險評估法、成本效益分析法等多種價值評估方法,構(gòu)建專業(yè)化、領(lǐng)域化的價值評估模型,確??珙I(lǐng)域數(shù)據(jù)資產(chǎn)價值評估的客觀性。最后,完善數(shù)據(jù)資產(chǎn)入表制度。2023年8月,財政部印發(fā)《企業(yè)數(shù)據(jù)資源相關(guān)會計處理暫行規(guī)定》,明確數(shù)據(jù)資產(chǎn)可以列入企業(yè)財務(wù)報表之中。目前,數(shù)據(jù)資產(chǎn)入表還處于探索實踐初期,可通過制定出臺數(shù)據(jù)資產(chǎn)入表的相關(guān)規(guī)則指引、指南,進(jìn)一步引導(dǎo)企業(yè)完成數(shù)據(jù)資產(chǎn)入表工作。

二是數(shù)據(jù)定價規(guī)則。解決數(shù)據(jù)交易糾紛的關(guān)鍵在于確定合理的數(shù)據(jù)定價規(guī)則,但數(shù)據(jù)定價目前尚未形成統(tǒng)一的規(guī)則和標(biāo)準(zhǔn)。鑒于應(yīng)用場景對數(shù)據(jù)市場價值的重大影響,可以考慮設(shè)置不同行業(yè)、不同場景的數(shù)據(jù)定價機(jī)制,盡可能降低由于交易雙方信息不對稱導(dǎo)致的價格歧視風(fēng)險。[54]數(shù)據(jù)交易的具體價格可以結(jié)合數(shù)據(jù)資產(chǎn)價值評估結(jié)果進(jìn)行確定,此外,例如《深圳市數(shù)據(jù)交易管理暫行辦法》第十九條第三款提出的數(shù)據(jù)質(zhì)量、數(shù)據(jù)樣本一致性、數(shù)據(jù)計算貢獻(xiàn)、數(shù)據(jù)業(yè)務(wù)應(yīng)用四個維度可以作為數(shù)據(jù)定價的考量因素。計價方式上,結(jié)合數(shù)據(jù)交易所實踐來看,可采取按次計費、按時長計費、固定價格或者面議價格等多種計價方式。

三是收益分配規(guī)則。“數(shù)據(jù)二十條”中提出,數(shù)據(jù)要素由市場評價貢獻(xiàn)、按貢獻(xiàn)決定報酬,并按照“誰投入、誰貢獻(xiàn)、誰受益”的原則,著重保護(hù)數(shù)據(jù)要素各參與方的投入產(chǎn)出收益。數(shù)據(jù)流通交易過程中主要涉及數(shù)據(jù)提供者、數(shù)據(jù)使用者、數(shù)據(jù)交易平臺三方主體,目前數(shù)據(jù)要素市場中的收益分配通常是數(shù)據(jù)交易平臺與數(shù)據(jù)交易雙方協(xié)商的結(jié)果,忽視了原始數(shù)據(jù)生產(chǎn)者對數(shù)據(jù)要素生產(chǎn)的貢獻(xiàn)。原始數(shù)據(jù)為數(shù)據(jù)要素的形成提供了原始材料,是數(shù)據(jù)要素形成的基礎(chǔ),應(yīng)當(dāng)將原始數(shù)據(jù)生產(chǎn)者作為收益分配主體之一,通過智能合約等方案提升原始數(shù)據(jù)生產(chǎn)者參與數(shù)據(jù)要素分配的可行性。[55]

四是供給激勵規(guī)則。加強(qiáng)數(shù)據(jù)要素供給激勵是“數(shù)據(jù)二十條”提出的明確要求,數(shù)據(jù)確權(quán)是激勵數(shù)據(jù)流通交易的有效法律手段,除此之外,還應(yīng)探索經(jīng)濟(jì)、技術(shù)、管理等多樣化的數(shù)據(jù)要素供給激勵舉措。目前,已經(jīng)有多家數(shù)據(jù)交易平臺開始針對不同的數(shù)據(jù)要素市場主體推出激勵方案。例如,深圳數(shù)據(jù)交易所針對企業(yè)建立的數(shù)據(jù)交易誠信合規(guī)激勵機(jī)制、湖南大數(shù)據(jù)交易所針對數(shù)據(jù)交易雙方和數(shù)據(jù)經(jīng)濟(jì)商等主體推出的百萬交易激勵計劃、鄭州數(shù)據(jù)交易中心針對數(shù)據(jù)經(jīng)紀(jì)人推出的千萬激勵計劃等。就跨領(lǐng)域數(shù)據(jù)交易流通而言,應(yīng)結(jié)合不同領(lǐng)域的市場需求,探索有針對性的供給激勵規(guī)則。

(本文系國家社會科學(xué)基金重點項目“生成式人工智能的法律定位與分層治理研究”的階段性研究成果,項目編號:23AFX009,課題組成員對本文亦有貢獻(xiàn))

注釋

[1][2][3]J. Wei, Y. Tay and R. Bommasani et al., "Emergent Abilities of Large Language Models," Transactions on Machine Learning Research, 2022, 8.

[4]姚佳:《人工智能的訓(xùn)練數(shù)據(jù)制度——以“智能涌現(xiàn)”為觀察視角》,《貴州社會科學(xué)》,2024年第2期。

[5]J. Brown, "Comparing GPT–3 vs GPT–4: An AI Expert's In–Depth Guide," https://www.33rdsquare.com/comparing-gpt-3-vs-gpt-4-an-ai-experts-in-depth-guide/.

[6][10][19][22]阿里云智能集團(tuán)、數(shù)字中國研究院(福建):《大模型訓(xùn)練數(shù)據(jù)白皮書》,阿里研究院,2024年5月24日。

[7]《大模型潮即將耗盡全宇宙文本,高質(zhì)量數(shù)據(jù)從哪里來?》,2023年7月17日,https://www.thepaper.cn/newsDetail_forward_23865563。

[8]羅云鵬:《大模型發(fā)展亟需高質(zhì)量“教材”相伴》,《科技日報》,2024年1月15日,第6版。

[9]HIMSS, "Implementing AI and ML From the Ground Up Case Study," https://www.himss.org/resources/implementing-ai-and-ml-ground-case-study.

[11]S. Yin et al., "A Survey on Multimodal Large Language Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 4.

[12]OpenAI, "CLIP: Connecting Text and Images," https://openai.com/index/clip/.

[13]楊維鎧等:《基于可視分析的訓(xùn)練數(shù)據(jù)質(zhì)量提升綜述》,《計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報》,2023年第11期。

[14]T. Sun, A. Gaut, S. Tang et al., "Mitigating Gender Bias in Natural Language Processing," Annual Meeting of the Association for Computational Linguistics, 2019.

[15]綠盟科技:《安全行業(yè)大模型SecLLM技術(shù)白皮書》,2023年9月1日。

[16]D. Huynh, J. Hardouin, "PoisonGPT: How We Hid a Lobotomized LLM on Hugging Face to Spread Fake News," https://colab.research.google.com/drive/16RPph6SobDLhisNzA5azcP-0uMGGq10R?usp=sharing&ref=blog.mithrilsecurity.io.

[17]L. Huang, W. Yu, W. Ma et al., "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions," arXiv:2311.05232, 2023.

[18]微軟亞洲研究院:《價值觀羅盤:如何讓大模型與人類價值觀對齊?》,2024年4月11日。

[20]W3Techs實時統(tǒng)計信息:https://w3techs.com/technologies/overview/content_language,2024年6月18日。

[21]IDC, Global DataSphere 2023, IDC Published, 18 May 2023.

[23]胡凌:《論地方立法中公共數(shù)據(jù)開放的性質(zhì)》,《地方立法研究》,2019年第03期第4輯。

[24]Verge, "ByteDance is Secretly Using OpenAI's Tech to Build a Competitor," Verge Tech, 16 December 2023.

[25]K. Lee, A. F. Cooper, J. Grimmelman etc., "AI and Law: the Next Generation–An Explainer Series," GenLaw, 6 July 2023.

[26]R. Morrison, "The Majority of AI Training Data Will Be Synthetic by Next Year, Says Gartner," https://techmonitor.ai/technology/ai-and-automation/ai-synthetic-data-edge-computing-gartner, 2 August 2023.

[27]支振鋒:《生成式人工智能大模型的信息內(nèi)容治理》,《政法論壇》,2023年第4期。

[28]參見北京人工智能高質(zhì)量數(shù)據(jù)集服務(wù)平臺,http://dataset.baiia.org.cn/,最后訪問于2024年6月18日。

[29]復(fù)旦大學(xué)數(shù)字與移動治理實驗室:《中國地方公共數(shù)據(jù)開放利用報告——省域(2023年度)》,http://ifopendata.fudan.edu.cn/report。

[30]劉金瑞:《生成式人工智能大模型的新型風(fēng)險與規(guī)制框架》,《行政法學(xué)研究》,2024年第2期。

[31]中國互聯(lián)網(wǎng)信息中心:《第53次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,2024年3月29日。

[32]楊華權(quán)、曲三強(qiáng):《論爬蟲協(xié)議的法律性質(zhì)》,《法律適用》,2013年第4期。

[33]億歐智庫:《2023中國信息與數(shù)據(jù)孤島分析報告》,2023年11月21日。

[34]最高人民法院:《知識產(chǎn)權(quán)侵權(quán)司法大數(shù)據(jù)專題報告》,2024年6月18日,https://www.court.gov.cn/upload/file/2019/11/22/11/20/20191122112018_45474.pdf。

[35]全球唱片協(xié)會:《2018全球音樂報告》,2024年6月18日,https://www.ifpi.org/ifpi-global-music-report-2018/。

[36][43]張平:《人工智能生成內(nèi)容著作權(quán)合法性的制度難題及其解決路徑》,《法律科學(xué)(西北政法大學(xué)學(xué)報)》,2024年第3期。

[37]K. Armstrong, "Tesla Surpasses 150 Million Miles Driven with FSD Beta," https://www.notateslaapp.com/news/1360/tesla-surpasses-150-million-miles-driven-with-fsd-beta.

[38]參見浙江省湖州市中級人民法院(2021)浙05刑終87號判決書。

[39]參見國家互聯(lián)網(wǎng)信息辦公室:《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例(征求意見稿)》第四章,https://www.cac.gov.cn/2021-11/14/c_1638501991577898.htm。

[40]許中緣、鄭煌杰:《數(shù)據(jù)要素賦能新質(zhì)生產(chǎn)力:內(nèi)在機(jī)理、現(xiàn)實障礙與法治進(jìn)路》,《上海經(jīng)濟(jì)研究》,2024年第5期。

[41]張軍強(qiáng):《人工智能大模型數(shù)據(jù)爬取行為的正當(dāng)性認(rèn)定》,《中國知識產(chǎn)權(quán)》,2024年。

[42]周樨平:《數(shù)據(jù)爬取的不正當(dāng)競爭認(rèn)定規(guī)則研究》,《南大法學(xué)》,2023年第2期。

[44]徐小奔、楊依楠:《論人工智能深度學(xué)習(xí)中著作權(quán)的合理使用》,《交大法學(xué)》,2019年第3期。

[45]劉曉春:《生成式人工智能數(shù)據(jù)訓(xùn)練中的“非作品性使用”及其合法性證成》,《法學(xué)論壇》,2024年第3期。

[46]丁曉東:《論人工智能促進(jìn)型的數(shù)據(jù)制度》,《中國法律評論》,2023年第6期。

[47]OpenAI, "New Models and Developer Products Announced at DevDay," https://openai.com/index/new-models-and-developer-products-announced-at-devday/.

[48]《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》中提出,“率先在信用、交通、醫(yī)療、衛(wèi)生、就業(yè)、社保、地理、文化、教育、科技、資源、農(nóng)業(yè)、環(huán)境、安監(jiān)、金融、質(zhì)量、統(tǒng)計、氣象、海洋、企業(yè)登記監(jiān)管等重要領(lǐng)域?qū)崿F(xiàn)公共數(shù)據(jù)資源合理適度向社會開放”。

[49]宋爍:《構(gòu)建以授權(quán)運營為主渠道的公共數(shù)據(jù)開放利用機(jī)制》,《法律科學(xué)(西北政法大學(xué)學(xué)報)》,2023年第1期。

[50]黃哲:《大模型價格戰(zhàn)背后的邏輯與真相》,《中國計算機(jī)報》,2024年6月10日,第10版。

[51]常江:《公共數(shù)據(jù)開放立法原則反思和開放路徑構(gòu)建》,《華東理工大學(xué)學(xué)報(社會科學(xué)版)》,2022年第5期。

[52]馬顏昕:《公共數(shù)據(jù)授權(quán)運營的類型構(gòu)建與制度展開》,《中外法學(xué)》,2023年第2期。

[53]行業(yè)主導(dǎo)模式,即由特定行業(yè)主管部門授權(quán)運營主體承擔(dān)本領(lǐng)域公共數(shù)據(jù)運營;區(qū)域一體化模式,即由地區(qū)數(shù)據(jù)管理機(jī)構(gòu)整體授權(quán)運營主體開展區(qū)域內(nèi)各類公共數(shù)據(jù)的市場運營;場景牽引模式,即圍繞特定場景的應(yīng)用需求,在公共數(shù)據(jù)資源統(tǒng)籌管理基礎(chǔ)上,基于特定應(yīng)用場景將數(shù)據(jù)分類授權(quán)給不同的運營主體。參見孫清白:《公共數(shù)據(jù)授權(quán)運營營利性與公益性的沖突及其制度協(xié)調(diào)》,《行政法學(xué)研究》,2024第3期。

[54]趙精武、周瑞玨:《數(shù)據(jù)要素市場如何進(jìn)行數(shù)據(jù)定價》,《學(xué)習(xí)時報》,2023年2月17日,第A3版。

[55]王延川、呂君枝:《原始數(shù)據(jù)提供者參與數(shù)據(jù)要素收益分配的理論邏輯與實踐路徑——以共同富裕為視角的考察》,《陜西師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版)》,2023年第3期。

責(zé) 編∕韓 拓 美 編∕周群英

Accelerate the Construction of Chinese Training Data Corpus of AI Large Models

Zhang Linghan

Abstract: The three elements of the development of AI large model industry are algorithm, computing power and data, among which the quality of training data corpus directly determines the ability of AI large models. The total amount of Chinese data corpus is seriously insufficient compared with English data corpus, and there are obstacles such as high risk of illegal data collection, insufficient open utilization of public data, uncoordinated copyright system of offline structured data, and no determined data ownership of commercial procurement and cooperation data, which have become institutional bottlenecks restricting the development of artificial intelligence. The development of China's AI large model industry can clarify the conditions for the identification of the legitimacy of network data sources through judicial precedents, coordinate copyright rules to determine the institutional boundaries of the rationality of offline data use, build an open mechanism to meet the needs of public data participation in corpus construction, coordinately promote the establishment of supply incentives for cross-domain data circulation and transaction rules, and break institutional barriers to meet the needs of industrial development.

Keywords: artificial intelligence large model, training data, corpus construction, copyright system, public data

[責(zé)任編輯:韓拓]