網(wǎng)站首頁 | 網(wǎng)站地圖

人民論壇網(wǎng)·國家治理網(wǎng)> 前沿理論> 正文

加強大數(shù)據(jù)治理,防范“大數(shù)據(jù)自大”

摘 要:依托大數(shù)據(jù)、互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,數(shù)字經(jīng)濟已經(jīng)成為我國高質(zhì)量發(fā)展的新引擎,對經(jīng)濟發(fā)展、社會治理、人民生活等方方面面都產(chǎn)生了重要影響。但是,對大數(shù)據(jù)這一數(shù)字經(jīng)濟的關(guān)鍵要素,目前在治理方面仍存在不少挑戰(zhàn)。為此,要著力防范“大數(shù)據(jù)自大”陷阱,加強大數(shù)據(jù)治理,為充分發(fā)揮大數(shù)據(jù)在國家治理現(xiàn)代化中的作用打下堅實基礎(chǔ)。

關(guān)鍵詞:大數(shù)據(jù)治理 大數(shù)據(jù)自大 政策建議

【中圖分類號】D63 【文獻標識碼】A

由于大數(shù)據(jù)具備“海量、實時、多類型”等特征, 依托大數(shù)據(jù)、互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,我國數(shù)字經(jīng)濟蓬勃發(fā)展,已經(jīng)成為高質(zhì)量發(fā)展的新引擎。但是,對大數(shù)據(jù)這一數(shù)字經(jīng)濟的關(guān)鍵要素而言,目前在治理方面仍存在不少挑戰(zhàn),尤其是存在過于強調(diào)大數(shù)據(jù)發(fā)展優(yōu)勢而忽略其中可能存在問題的傾向。為此,本文旨在著重探討大數(shù)據(jù)治理中需要防范的“大數(shù)據(jù)自大”陷阱。

“大數(shù)據(jù)”和“傳統(tǒng)數(shù)據(jù)”收集過程的差異

大數(shù)據(jù)在收集和分析方式上與傳統(tǒng)數(shù)據(jù)存在較大差異。傳統(tǒng)統(tǒng)計數(shù)據(jù)的收集主體是國家統(tǒng)計部門(“統(tǒng)計”在英文中與“國家”同一詞根)和特定研究機構(gòu)。無論是人口普查還是抽樣調(diào)查,在收集數(shù)據(jù)前往往需要經(jīng)過確定收集數(shù)據(jù)的目標、根據(jù)該目標設(shè)計問卷或者確定收集方法、組織數(shù)據(jù)采集團隊、對數(shù)據(jù)收集做好質(zhì)量控制等步驟。對于抽樣調(diào)查,還需要詳細的確定抽樣框的步驟。尤其重要的是,傳統(tǒng)數(shù)據(jù)的統(tǒng)計必須遵守相關(guān)法律法規(guī),如《中華人民共和國統(tǒng)計法》《中華人民共和國統(tǒng)計法實施條例》等。因此,傳統(tǒng)數(shù)據(jù)的收集主體相對清晰,數(shù)據(jù)收集目標相對明確,存在規(guī)范的收集流程;一旦統(tǒng)計數(shù)據(jù)出現(xiàn)質(zhì)量問題,也有明確責(zé)任人。

與傳統(tǒng)數(shù)據(jù)的收集相比,大數(shù)據(jù)往往不是為了特定目標收集,而是企業(yè)運營過程中產(chǎn)生的副產(chǎn)品。例如,谷歌作為搜索引擎,最初只是為用戶提供便捷的搜索工具,但隨著用戶搜索量的增加,用戶搜索的信息本身沉淀為搜索大數(shù)據(jù)。又如淘寶最初只是讓消費者和廠商可以在線上達成交易的平臺,但雙方的交易形成了交易大數(shù)據(jù)。簡而言之,大數(shù)據(jù)的收集不再是某一主體為了特定目標而主動展開的統(tǒng)計項目,收集過程往往由數(shù)據(jù)采集平臺和機構(gòu)自行決定,因此對外界來說是“黑箱”。由于目前我國還沒有相應(yīng)法律法規(guī)來規(guī)范大數(shù)據(jù)收集過程中的責(zé)、權(quán)、利問題,大數(shù)據(jù)的質(zhì)量以及基于大數(shù)據(jù)的分析如果出現(xiàn)問題也存在難以追責(zé)的現(xiàn)象。

“大數(shù)據(jù)自大”的提出

“大數(shù)據(jù)自大(Big Data Hubris)”問題最早由Lazer等學(xué)者在2014年發(fā)文討論谷歌公司預(yù)測美國流感發(fā)病率項目時提出。2008年11月,谷歌公司啟動了GFT(谷歌流感趨勢)項目以預(yù)測美國疾控中心報告的流感發(fā)病率。2009年,GFT團隊在《自然》發(fā)文稱,只需分析數(shù)十億搜索中45個與流感相關(guān)的關(guān)鍵詞,GFT就能比美國疾控中心提前兩周預(yù)報2007—2008季流感的發(fā)病率。2014年, Lazer等學(xué)者在《科學(xué)》發(fā)文指出,2009年GFT沒有能預(yù)測到非季節(jié)性流感A-H1N1;從2011年8月開始的108周里,GFT有100周高估了美國疾控中心報告的流感發(fā)病率,高估程度達1.5倍—2倍多。

Lazer等學(xué)者認為,“大數(shù)據(jù)自大”是這一預(yù)測錯誤的主要原因之一。這里,它是指一家機構(gòu)認為自己擁有的“海量數(shù)據(jù)”就是“全量數(shù)據(jù)”,因此在分析定位上認為大數(shù)據(jù)比科學(xué)抽樣基礎(chǔ)上形成的傳統(tǒng)數(shù)據(jù)更優(yōu)越。雖然近年來大數(shù)據(jù)與各類傳統(tǒng)數(shù)據(jù)相結(jié)合的分析受到了一定程度的重視,但是在實踐中卻仍然存在“大數(shù)據(jù)自大”現(xiàn)象。

“大數(shù)據(jù)自大”的現(xiàn)實表現(xiàn)

忽略大數(shù)據(jù)可能存在的結(jié)構(gòu)變化

由于大數(shù)據(jù)相關(guān)技術(shù)在我國運用的時間還比較短,在對經(jīng)濟和金融相關(guān)的預(yù)測中,尚不存在可以跨越較長經(jīng)濟周期的大數(shù)據(jù)。而大數(shù)據(jù)分析所依據(jù)的機器學(xué)習(xí)或者深度學(xué)習(xí)模型,都假定了訓(xùn)練數(shù)據(jù)的生成機制和真實數(shù)據(jù)的生成機制是相似的,即不存在結(jié)構(gòu)性變化。這一假定在較短時間內(nèi)可能成立,但是如果經(jīng)濟出現(xiàn)結(jié)構(gòu)性變化,就會產(chǎn)生過去運行良好的模型忽然預(yù)測不準的現(xiàn)象。例如,在經(jīng)濟繁榮時期訓(xùn)練出的判斷個人是否會逾期或者形成不良貸款的風(fēng)控模型,在經(jīng)濟下行時期就可能低估實際不良率的發(fā)生,導(dǎo)致對風(fēng)險的預(yù)備不足。

忽略大數(shù)據(jù)可能不具備代表性

第一,不同平臺或者機構(gòu)有其特定的消費人群。因此分析結(jié)論可能僅適用于該平臺或機構(gòu)、未必可以代表全國或某一地區(qū)的狀況。然而一個常見現(xiàn)象是,網(wǎng)絡(luò)新聞平臺采用該平臺的瀏覽大數(shù)據(jù)來分析各省人群的閱讀習(xí)慣差異,餐飲行業(yè)平臺采用在這個平臺上產(chǎn)生的大數(shù)據(jù)來分析不同城市的夜間經(jīng)濟,報告結(jié)果往往直接闡述為“XX省的讀者更偏好娛樂類新聞”“XX市夜間經(jīng)濟特征”等。當(dāng)相關(guān)企業(yè)將這類報告報送有關(guān)部門時,解讀這類報告中的趨勢和特征就需要注意,這類報告的分析包含了兩部分因素:一是全國或者某一地區(qū)人民閱讀或者餐飲的真實特征和趨勢;二是該平臺自身需求所帶來的結(jié)構(gòu)性變化。如果忽略了第二種因素,就可能會導(dǎo)致對一些行業(yè)發(fā)展狀況產(chǎn)生誤判。

第二,在大數(shù)據(jù)供給層面存在算法調(diào)整問題。以谷歌公司為例,其商業(yè)模式的主要目標是更快速地為使用者提供準確信息。為了實現(xiàn)這一目標,數(shù)據(jù)科學(xué)家與工程師不斷更新谷歌搜索的算法,讓使用者可以通過后續(xù)谷歌推薦的相關(guān)詞快捷地獲得有用信息。這一模式在商業(yè)上非常必要,但在數(shù)據(jù)生成機制方面卻導(dǎo)致不同時期的數(shù)據(jù)之間可能不可比。如果數(shù)據(jù)分析團隊和算法演化團隊沒有充分溝通,數(shù)據(jù)分析團隊不清楚知曉算法調(diào)整對數(shù)據(jù)生成機制的影響,就會誤將數(shù)據(jù)變動解讀為市場真實變動而帶來誤判。

第三,數(shù)據(jù)生成動機可能會隨時間推移而發(fā)生變化。前文已述,大數(shù)據(jù)不再是由政府特定部門或者特定機構(gòu)主持收集,而是經(jīng)濟社會主體運營中產(chǎn)生的副產(chǎn)品,因此大數(shù)據(jù)的采集就和該主體自身的利益訴求密切相關(guān)。以社交媒體大數(shù)據(jù)為例,對這類數(shù)據(jù)的分析常常建立在一個假定之上,即人們在社交媒體分享的信息都是真實的、自發(fā)的、不會被自己發(fā)言的平臺所操縱。如果說過去社交媒體企業(yè)記錄保存客戶信息的動機僅僅是本公司發(fā)展業(yè)務(wù)需要,算法演化也單純是為了更好地服務(wù)消費者,那么隨著大數(shù)據(jù)時代的推進,“數(shù)據(jù)為王”的特征就會越來越明顯,社交媒體會看到除了可以給使用者植入廣告以增加收入之外,還可以操縱數(shù)據(jù)的生成與報告以增加自身的影響力。

技術(shù)唯上,忽略大數(shù)據(jù)分析的現(xiàn)實環(huán)境

大數(shù)據(jù)為我國發(fā)展新業(yè)態(tài)提供了嶄新機遇,但也存在一味強調(diào)大數(shù)據(jù)的技術(shù)優(yōu)勢,而忽略大數(shù)據(jù)技術(shù)和各地區(qū)經(jīng)濟社會發(fā)展實際狀況相結(jié)合時可能產(chǎn)生問題的現(xiàn)象。例如,金融科技發(fā)展過程中,大數(shù)據(jù)征信獲得了長足進展。基于大數(shù)據(jù)技術(shù),車抵貸有了新的執(zhí)行方式。相較于過去抵押車之后車就要放到固定地點不能移動的安排,現(xiàn)在由于車輛都安裝了GPS,貸款平臺可以實時監(jiān)控車輛去向,因此抵押人辦完抵押手續(xù)之后仍然可以將車開走,一旦無法還款,平臺公司上門拖車即可。但是,在2018年以來開展的掃黑除惡專項整治活動中,借款人不還款、而出借方平臺因為擔(dān)心被當(dāng)作惡意催收,也不能按照GPS上門收車的現(xiàn)象開始出現(xiàn)。又如,大數(shù)據(jù)分析技術(shù)的發(fā)展讓網(wǎng)約車成為人們?nèi)粘3鲂械男逻x擇。但2019年12月Uber的首份安全報告顯示,2018年共發(fā)生超過3000起性侵案件,而紐約警察局記錄的數(shù)據(jù)顯示,2018年交通系統(tǒng)發(fā)生的這類案件為533起。上述兩例說明,如果沒有尊重金融規(guī)律(風(fēng)險較高的人即便可以抵押車也不見得是好的借款人)、沒有相應(yīng)的司法保障而單純依靠大數(shù)據(jù)分析的技術(shù)力量,那么在開發(fā)新業(yè)態(tài)的同時也可能帶來新風(fēng)險。

防范“大數(shù)據(jù)自大”的政策建議

第一,加快訂立大數(shù)據(jù)采集和分析方面的法律法規(guī)。雖然有《網(wǎng)絡(luò)安全法》、《統(tǒng)計法》等法律法規(guī),但目前我國在專門針對大數(shù)據(jù)采集、使用、分享等方面的法律法規(guī)還十分欠缺。例如,一些APP存在在使用者不知情的情況下,采集和使用與該APP無關(guān)的個人信息的做法,而這些行為目前并沒有明確的法律層面的懲戒措施。而歐盟的《通用數(shù)據(jù)保護條例(General Data Protection Regulations)》、荷蘭的《個人數(shù)據(jù)保護法》(Personal Data Protection Act,“DPA”)都指出,在沒有法律依據(jù)的情況下處理個人數(shù)據(jù)是不被允許的。

第二,提高大數(shù)據(jù)使用的透明度,加強對大數(shù)據(jù)質(zhì)量的評估。由于大數(shù)據(jù)體量大、分析難度高等問題,不僅大數(shù)據(jù)的收集過程可能是“黑箱”,大數(shù)據(jù)分析也可能存在過程不透明的現(xiàn)象。在GFT案例中,Lazer等人指出,谷歌公司從未明確用于搜索的45個關(guān)鍵詞是哪些;雖然谷歌工程師在2013年調(diào)整了數(shù)據(jù)算法,但是谷歌并沒有公開相應(yīng)數(shù)據(jù),也沒有解釋這類數(shù)據(jù)是如何搜集的。同時,與透明度相關(guān)的是大數(shù)據(jù)分析結(jié)果的可復(fù)制性問題。由于谷歌以外的研究人員難以獲得GFT使用的數(shù)據(jù),因此就難以復(fù)制、評估采用該數(shù)據(jù)分析結(jié)果的可靠性。這種數(shù)據(jù)生成和分析的“黑箱”特征,容易成為企業(yè)或者機構(gòu)操縱數(shù)據(jù)生成過程和研究報告結(jié)果的溫床。唯有通過推動大數(shù)據(jù)分析的透明化,才能在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展之初,建立健康的數(shù)據(jù)文化。

第三,在保護隱私和數(shù)據(jù)安全的基礎(chǔ)上,加大傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)的開放共享力度。大數(shù)據(jù)分析中,單個企業(yè)具有顆粒度較高但是代表性不足的數(shù)據(jù) “信息孤島”問題,需要通過不同行業(yè)、不同類型大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)之間加強開放和共享來解決。目前,一些大數(shù)據(jù)企業(yè)已經(jīng)開始著手推動數(shù)據(jù)開放平臺方面的工作,這是該方向可喜的變化。同時要看到,在傳統(tǒng)數(shù)據(jù)的收集和開放運用方面,我國還有很大提升空間。只有在對涉及我國基本國情的傳統(tǒng)數(shù)據(jù)進行充分學(xué)習(xí)研究之后,我國學(xué)界和業(yè)界才能對經(jīng)濟政治社會文化等領(lǐng)域的基本狀況有較清晰的把握。而這類的把握,是評估大數(shù)據(jù)質(zhì)量、大數(shù)據(jù)可研究問題的關(guān)鍵,對推進大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展有舉足輕重的作用。

結(jié)語

我國經(jīng)濟已由高速增長階段轉(zhuǎn)向高質(zhì)量發(fā)展階段,大數(shù)據(jù)已經(jīng)成為數(shù)字經(jīng)濟發(fā)展的關(guān)鍵要素。如果忽略數(shù)據(jù)生成機構(gòu)可能存在的行為動機、大數(shù)據(jù)相關(guān)技術(shù)使用的現(xiàn)實國情、大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的互相配合和交叉驗證,那么大數(shù)據(jù)分析就有可能落入存在嚴重偏差的陷阱。因此在政策導(dǎo)向上,需要盡快推動對大數(shù)據(jù)采集和使用的法律法規(guī)建設(shè),同時推動大數(shù)據(jù)開放共享、大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的研究與合作,使大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)互為補充、相得益彰,共同助力我國經(jīng)濟的高質(zhì)量發(fā)展。

【本文作者為北京大學(xué)國家發(fā)展研究院教授】

參考文獻

[1]胥愛歡: 《互聯(lián)網(wǎng)金融創(chuàng)新挑戰(zhàn):大數(shù)據(jù)、跨界經(jīng)營與權(quán)利異化》,《西南金融》,2016年第6期。

責(zé)編:司文君 / 周素麗

聲明:本文為《國家治理》周刊原創(chuàng)內(nèi)容,任何單位或個人轉(zhuǎn)載請回復(fù)國家治理周刊微信號獲得授權(quán),轉(zhuǎn)載時務(wù)必標明來源及作者,否則追究法律責(zé)任。

責(zé)任編輯:賀勝蘭