數(shù)據(jù)是新型生產(chǎn)要素,對助推傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級、打造新產(chǎn)業(yè)新業(yè)態(tài)新模式、壯大經(jīng)濟(jì)發(fā)展引擎,都起到重要的作用。根據(jù)“十四五”規(guī)劃綱要,“統(tǒng)籌數(shù)據(jù)開發(fā)利用”“推進(jìn)數(shù)據(jù)跨部門、跨層級、跨地區(qū)匯聚融合”成為我國數(shù)字化轉(zhuǎn)型的頂層設(shè)計(jì)。在激發(fā)要素潛能和隱私保護(hù)的雙重驅(qū)動下,大批在提供隱私保護(hù)前提下實(shí)現(xiàn)數(shù)據(jù)價(jià)值挖掘的數(shù)據(jù)處理模式相繼涌現(xiàn),包括多方安全計(jì)算、可信執(zhí)行環(huán)境為代表的隱私計(jì)算技術(shù),以低代碼、零代碼為核心的“軟件即服務(wù)”(SaaS)平臺等。
數(shù)據(jù)合規(guī)從技術(shù)層面來說具有多方面優(yōu)勢,體現(xiàn)在以技術(shù)手段促進(jìn)組織形式與價(jià)值創(chuàng)造的分離。例如,多方安全計(jì)算可在非信任主體間數(shù)據(jù)相互保密的前提下,進(jìn)行高效融合計(jì)算,實(shí)現(xiàn)“數(shù)據(jù)占有權(quán)和使用權(quán)的分離”;可信執(zhí)行環(huán)境可通過硬件隔斷形成封閉運(yùn)行環(huán)境,兌現(xiàn)更高標(biāo)準(zhǔn)的隱私保護(hù)承諾,實(shí)現(xiàn)“數(shù)據(jù)供給和數(shù)據(jù)保護(hù)的分離”;低代碼和零代碼可為開發(fā)者提供可視化應(yīng)用開發(fā)環(huán)境,降低或去除應(yīng)用開發(fā)對原生代碼編寫的需求,實(shí)現(xiàn)“算法手段和算法目的分離”。
數(shù)據(jù)合規(guī)的前沿技術(shù)風(fēng)險(xiǎn)
前端風(fēng)險(xiǎn)在于誘發(fā)人機(jī)對抗。技術(shù)手段下數(shù)據(jù)合規(guī)具有“白盒特性”,各參與方都可以直接獲取完整的技術(shù)參數(shù),惡意攻擊者同樣可以利用該特性偽裝成誠實(shí)參與方竊取運(yùn)算結(jié)果、扭曲模型訓(xùn)練、破解可信環(huán)境或生成惡意低代碼。參與方自愿提供數(shù)據(jù)、消耗算力參與數(shù)據(jù)合規(guī)實(shí)踐,其具有強(qiáng)烈的自利動機(jī),輕則通過參與獲得技術(shù)使用權(quán),重則掠奪中間數(shù)據(jù)和源頭數(shù)據(jù)。依據(jù)危害性由低到高的順序,將數(shù)據(jù)合規(guī)的參與方劃分成三種類型。此種劃分方式表明,隨著利益需求的不斷變化,各參與方的角色定位也可能發(fā)生改變。
中端風(fēng)險(xiǎn)在于加劇算法歧視。算法歧視主要源于數(shù)據(jù)集偏差或數(shù)據(jù)缺陷,在數(shù)據(jù)合規(guī)場景中,不同來源數(shù)據(jù)間的強(qiáng)搭和錯(cuò)配可能對聯(lián)合數(shù)據(jù)造成沖擊與擾亂,使算法歧視規(guī)模性放大。除了數(shù)據(jù)投毒等極端手段,誠實(shí)但好奇參與方的數(shù)據(jù)輸入因數(shù)據(jù)梯度同其他參與方相差過大,也可能間接導(dǎo)致模型被“污染”,輸出歧視性結(jié)果。單次歧視的即時(shí)危害雖不易被察覺,卻足以在更長時(shí)間維度和更長數(shù)據(jù)鏈條上產(chǎn)生積累式影響。例如,當(dāng)不同學(xué)校的畢業(yè)生數(shù)據(jù)被用于訓(xùn)練招聘篩選系統(tǒng),或者當(dāng)男性占絕對多數(shù)的IT行業(yè)數(shù)據(jù)和其他行業(yè)數(shù)據(jù)被共同用于訓(xùn)練升職評價(jià)系統(tǒng)時(shí),同身份緊密捆綁的群體歧視將借由算法“共訓(xùn)”之名,從數(shù)據(jù)向模型蔓延。
后端風(fēng)險(xiǎn)在于催生逆向淘汰。在各類促進(jìn)數(shù)據(jù)合規(guī)的技術(shù)大規(guī)模部署前,面對受眾,智能應(yīng)用被限制在各自為政的領(lǐng)域,彼此之間沒有交流與協(xié)作,更多的是算法間的良性循環(huán),即效率高、服務(wù)好、安全穩(wěn)定的智能應(yīng)用將獲得更高市場份額,榨取用戶剩余的智能應(yīng)用將面臨被淘汰或整改的命運(yùn),因嚴(yán)重違法違規(guī)收集使用個(gè)人信息而被強(qiáng)制下架的各類APP即為典型事例。由于披上了“合規(guī)”的外衣,數(shù)據(jù)合規(guī)科技可能逐漸導(dǎo)致“算法趨同”,在技術(shù)黑箱的掩護(hù)之下,過去算法間的“朝上競爭”極有可能向“逐底競爭”轉(zhuǎn)變。對數(shù)據(jù)規(guī)整性要求不高、通信成本更低、算法可解釋性匱乏的智能應(yīng)用,或?qū)㈦S著技術(shù)手段下數(shù)據(jù)合規(guī)的不斷發(fā)展,逆向淘汰相對保守的傳統(tǒng)智能應(yīng)用。
破解數(shù)據(jù)合規(guī)的應(yīng)對措施
為應(yīng)對前端風(fēng)險(xiǎn),應(yīng)引入聲譽(yù)概念作為衡量參與方信任度的核心指標(biāo)。多權(quán)重主觀邏輯模型使基于聲譽(yù)的可信賴客戶端之間的“朝上競爭”成為可能,配合區(qū)塊鏈技術(shù)的不可篡改特性,分布式信譽(yù)管理將成為現(xiàn)實(shí)。例如,主導(dǎo)方可圍繞深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)激勵(lì)策略,在開源分布式特殊場景中推行資源“按勞分配”,以達(dá)到邊緣節(jié)點(diǎn)的最佳訓(xùn)練水平;利用區(qū)塊鏈技術(shù)跟蹤全局模型更新,對積極貢獻(xiàn)用戶給予豐厚獎(jiǎng)勵(lì),實(shí)現(xiàn)局部模型的更高穩(wěn)定性。此外,契約理論可被用于各參與方算力投入和模型質(zhì)量的衡量。不過,技術(shù)互嵌的解決方案有時(shí)也存在相互掣肘,技術(shù)方需“量力而行”。例如,區(qū)塊鏈技術(shù)的公共賬本特性存在通信延遲、數(shù)據(jù)吞吐量大等問題,必然對通信設(shè)備、服務(wù)器帶寬以及主機(jī)算力等提出更高要求。為此,可通過對通信成本和模型準(zhǔn)確性之間進(jìn)行表征的多節(jié)次方程式對二者的權(quán)衡取舍予以指導(dǎo)。
為應(yīng)對中端風(fēng)險(xiǎn),應(yīng)構(gòu)建數(shù)據(jù)清洗過程適用的缺省性數(shù)據(jù)篩選機(jī)制。避免算法歧視“群體化”需要深入數(shù)據(jù)處理的社會性聚合機(jī)制,尤其需拷問作為多方安全計(jì)算、聯(lián)邦學(xué)習(xí)和低代碼參與方的自身稟賦、行業(yè)特點(diǎn)和地域限制在何種程度上影響了數(shù)據(jù)樣本的生成。無論如何清洗,來源于同一主體的數(shù)據(jù)通常會被打上難以察覺的烙印,具有隱性的身份化表征,在無形之中限定了數(shù)據(jù)合規(guī)的應(yīng)用格局。不同數(shù)據(jù)間集體身份在數(shù)據(jù)合規(guī)實(shí)踐中相互排斥和博弈越明顯,得出的運(yùn)算結(jié)果、訓(xùn)練出的公共模型和成型的低代碼模塊就越有可能產(chǎn)生歧視。簡言之,原本稀松平常的數(shù)據(jù),可能由于同其他非適配數(shù)據(jù)的聯(lián)合,導(dǎo)致數(shù)據(jù)池難以自洽。在數(shù)據(jù)處理的過程鏈條上,被污染的數(shù)據(jù)池?zé)o法充分發(fā)揮技術(shù)潛力,甚至可能造成數(shù)據(jù)共享機(jī)制和自動化決策機(jī)制一同組成的整體解決方案的走樣。歧視源于數(shù)據(jù),因此,主導(dǎo)方應(yīng)在數(shù)據(jù)清洗過程中主動去除冗余、不相關(guān)、不合格數(shù)據(jù),在降低通信成本的同時(shí)提升運(yùn)算精度,避免各參與方因“數(shù)據(jù)饑渴”而“來者不拒”,以期從源頭“掐斷”算法歧視群體化的苗頭。
為應(yīng)對后端風(fēng)險(xiǎn),應(yīng)確立智能應(yīng)用開發(fā)和投入市場的基礎(chǔ)倫理標(biāo)準(zhǔn)。引導(dǎo)科技向善、避免智能應(yīng)用出現(xiàn)“劣幣驅(qū)逐良幣”的有效手段,是通過法律將標(biāo)準(zhǔn)和原則植入技術(shù)的底層行動邏輯。在投入市場前,任何技術(shù)應(yīng)用都應(yīng)滿足倫理先行原則,不得游走于現(xiàn)有法律體系的灰色地帶進(jìn)行監(jiān)管套利。因匯聚了海量大數(shù)據(jù),技術(shù)方極有可能經(jīng)不住誘惑,利用算法壓榨個(gè)體,攝取不成比例的回報(bào)。倫理先行原則表明,技術(shù)目標(biāo)的選擇不應(yīng)是簡單的效益至上或是性能擇優(yōu)。在數(shù)據(jù)合規(guī)場景中,各參與方的效益增長勢必會同步拉動社會公共利益的福祉提升。此外,對于數(shù)據(jù)主體而言理應(yīng)共享技術(shù)紅利,技術(shù)方必須兌現(xiàn)用戶授權(quán)時(shí)所抱有的信賴?yán)?,否則數(shù)據(jù)主體有權(quán)主張數(shù)據(jù)處理合同自始無效。