網(wǎng)站首頁 | 網(wǎng)站地圖

大國新村
首頁 > 理論前沿 > 深度原創(chuàng) > 正文

大數(shù)據(jù)與小數(shù)據(jù)深度融合的價值與路徑

【摘要】大數(shù)據(jù)和小數(shù)據(jù)是兩個相對的概念,在大數(shù)據(jù)勇立潮頭不斷發(fā)展之際,小數(shù)據(jù)的力量也不能被忽視或遺忘。通過分析大數(shù)據(jù)和小數(shù)據(jù)的特征及區(qū)別,闡明它們各自具有的優(yōu)勢,我們應明確面對未來的發(fā)展,不能在大數(shù)據(jù)和小數(shù)據(jù)之間做單選題,應充分結(jié)合二者的優(yōu)勢,將大數(shù)據(jù)和小數(shù)據(jù)進行融合形成智能數(shù)據(jù),從而賦能經(jīng)濟社會發(fā)展。

【關(guān)鍵詞】大數(shù)據(jù) 小數(shù)據(jù) 數(shù)據(jù)融合 【中圖分類號】F49 【文獻標識碼】A

大數(shù)據(jù)正在逐步改變?nèi)藗兊纳盍晳T和思維方式,在推動社會進步和發(fā)展的過程中發(fā)揮日益重要的作用,無論學界和業(yè)界還是政府都越來越重視大數(shù)據(jù)的發(fā)展及其作用。而與大數(shù)據(jù)相對應的小數(shù)據(jù),似乎在熱火朝天的大數(shù)據(jù)時代逐漸被遺忘。事實上,小數(shù)據(jù)具備的精確性和個性化優(yōu)勢在大數(shù)據(jù)時代也是一股不可忽視的力量。那么,我們應該如何看待和處理大數(shù)據(jù)和小數(shù)據(jù)之間的關(guān)系呢?

大數(shù)據(jù)與小數(shù)據(jù)的區(qū)別

由于目前各界對大數(shù)據(jù)內(nèi)涵界定的不一致,導致大數(shù)據(jù)的特征也未形成統(tǒng)一認知。但是,學界普遍認為大數(shù)據(jù)具有“4V”特征:第一,大數(shù)據(jù)在規(guī)模上呈現(xiàn)出數(shù)量多、體積大的海量特征。不同于以MB為基本單位的傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)的容量及處理量通常以GB、TB乃至PB為基本單位。第二,大數(shù)據(jù)在類型上呈現(xiàn)出種類多、來源廣的多樣性特征。大數(shù)據(jù)無時無刻不在自動產(chǎn)生數(shù)據(jù),其種類涵蓋文字、圖片和視頻等。數(shù)據(jù)來源可以是在線交易、移動通信和網(wǎng)絡社交等途徑。第三,大數(shù)據(jù)在更新和處理數(shù)據(jù)的速度上均呈現(xiàn)出高速性特征。一方面,隨著網(wǎng)絡環(huán)境不斷完善,大數(shù)據(jù)采集和傳輸速率大大提升,從而加速數(shù)據(jù)更新;另一方面,大數(shù)據(jù)強調(diào)數(shù)據(jù)在線,能夠根據(jù)實際需要對數(shù)據(jù)進行實時處理。第四,大數(shù)據(jù)具備高價值性且價值密度低的特征。由于大數(shù)據(jù)是涵蓋全體對象的總體數(shù)據(jù),它可以從總體數(shù)據(jù)中挖掘出高價值的全量信息。與此同時,也因為大數(shù)據(jù)體量龐大和數(shù)據(jù)類型繁雜,海量數(shù)據(jù)中蘊含價值的信息容易淹沒在垃圾信息中,信息提取無異于“大海撈針”,呈現(xiàn)出價值密度低的特征。

與大數(shù)據(jù)在規(guī)模、類型和價值三個方面的特征進行對比,我們可以發(fā)現(xiàn)小數(shù)據(jù)具有以下幾個方面的特征:第一,小數(shù)據(jù)在規(guī)模上表現(xiàn)為有限性,主要體現(xiàn)在對象和體量上。一方面,小數(shù)據(jù)的采集對象主要為個人,這在一定程度上限制了數(shù)據(jù)規(guī)模的擴大;另一方面,數(shù)據(jù)體量的“大”“小”衡量是相對的,小數(shù)據(jù)并非簡單的體量小,而是與海量大數(shù)據(jù)相比,小數(shù)據(jù)的容量是有限的。第二,小數(shù)據(jù)在類型上也呈現(xiàn)出多樣性特征。從數(shù)據(jù)來源看,小數(shù)據(jù)可以產(chǎn)生于訪談和調(diào)查問卷等。從數(shù)據(jù)種類看,它包括各種結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)。第三,小數(shù)據(jù)具有一定的價值且價值密度高。由于小數(shù)據(jù)主要圍繞單一用戶的個性化信息,并且數(shù)據(jù)規(guī)模相對有限,小數(shù)據(jù)中的價值信息并不容易被淹沒,且較大數(shù)據(jù)而言,小數(shù)據(jù)的價值密度更高。

大數(shù)據(jù)與小數(shù)據(jù)的區(qū)別主要有以下四點。一是樣本的差異。首先,從樣本容量看,大數(shù)據(jù)涵蓋全體用戶,樣本容量為總體樣本量。小數(shù)據(jù)則具體到個體,樣本量單一。其次,從樣本來源看,大數(shù)據(jù)只能搜集客觀存在的行為數(shù)據(jù),小數(shù)據(jù)則可以根據(jù)特定問題搜集數(shù)據(jù)或定制數(shù)據(jù),具有較強的目的性和針對性。最后,從樣本數(shù)據(jù)類型看,大數(shù)據(jù)和小數(shù)據(jù)都包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。但是,大數(shù)據(jù)中半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的占比更大,而小數(shù)據(jù)則以調(diào)查得到的結(jié)構(gòu)化數(shù)據(jù)為主。

二是精確性的差異。大數(shù)據(jù)對數(shù)據(jù)收集和分析的精確性要求低于小數(shù)據(jù)。由于大數(shù)據(jù)樣本來源的廣泛性和數(shù)據(jù)的海量性,大數(shù)據(jù)在數(shù)據(jù)收集環(huán)節(jié)也具有粗糙性,價值密度比較低,而小數(shù)據(jù)則相反。其次,大數(shù)據(jù)通常在線處理的數(shù)據(jù)也是有限的,加上數(shù)據(jù)處理的實時性要求,其結(jié)果往往只是近似情況,而小數(shù)據(jù)專注于個性化探索,對精確性的要求較高。最后,大數(shù)據(jù)關(guān)注群體的共性規(guī)律,小數(shù)據(jù)關(guān)注揭示個性化規(guī)律,所以它們的分析層次分別是針對宏觀和微觀層面的,這也決定了大數(shù)據(jù)和小數(shù)據(jù)的精確性差異。

三是關(guān)注的因素關(guān)系差異。大數(shù)據(jù)更關(guān)注相關(guān)關(guān)系,而小數(shù)據(jù)則更關(guān)注因果關(guān)系。大數(shù)據(jù)是“讓數(shù)據(jù)說話”,它基于數(shù)據(jù)驅(qū)動的思維,從海量數(shù)據(jù)中分析出“是什么”。而小數(shù)據(jù)更注重結(jié)果背后存在的內(nèi)在邏輯關(guān)系,它是基于理論驅(qū)動的思維,不僅要了解“是什么”,還需要探究“為什么”,對現(xiàn)象背后的本質(zhì)把握更為深入和透徹。

四是價值發(fā)現(xiàn)的維度差異。從維度層面看,大數(shù)據(jù)的價值發(fā)現(xiàn)主要在于廣度,小數(shù)據(jù)則主要在于深度。這是因為大數(shù)據(jù)的海量性和多樣性特征,大數(shù)據(jù)的涵蓋面廣,涉及的因素多且復雜。因此,它更側(cè)重于在橫向領(lǐng)域的價值挖掘,價值發(fā)現(xiàn)的層次淺但范圍廣,有助于把握宏觀規(guī)律。而小數(shù)據(jù)是對個體數(shù)據(jù)全方位的收集和挖掘,其涉及面與大數(shù)據(jù)相比較窄,但挖掘更為徹底,有助于深刻認識個體。

大數(shù)據(jù)和小數(shù)據(jù)各自的優(yōu)勢

無論大數(shù)據(jù)還是小數(shù)據(jù),都有自身的優(yōu)勢方面,也有不足的地方。事實上,大數(shù)據(jù)和小數(shù)據(jù)的優(yōu)勢所在,是需要根據(jù)具體的業(yè)務場景來分析的,因為它們在解決不同業(yè)務問題方面的優(yōu)劣各不相同,并且這些優(yōu)勢也都是相對的。

首先,大數(shù)據(jù)發(fā)展信心滿滿。隨著互聯(lián)網(wǎng)時代的發(fā)展,圍繞在人們周圍的信息呈爆炸式增長,這些多樣化、結(jié)構(gòu)復雜的信息不斷匯聚形成大數(shù)據(jù)。相比于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)在信息聚合、信息代表性以及信息檢索方面有著得天獨厚的優(yōu)勢。

第一,大數(shù)據(jù)具有較強的數(shù)據(jù)代表性。在數(shù)據(jù)代表性方面,大數(shù)據(jù)力求詳盡,試圖運用數(shù)據(jù)展示研究對象的全部面貌,而不僅僅是通過數(shù)據(jù)抽樣來展示局部化的數(shù)據(jù),即“樣本=總體”。在早期的社會科學研究當中,由于技術(shù)限制,對于研究對象涉及的數(shù)據(jù)往往都是通過抽樣調(diào)查的方式來實現(xiàn)的,這樣的數(shù)據(jù)研究方式可能使妍究樣本和對象不具有代表性,從而無法縱觀研究對象的宏觀全貌。而大數(shù)據(jù)的出現(xiàn)恰好解決了數(shù)據(jù)不具有代表性的問題,因為大數(shù)據(jù)是對全樣本數(shù)據(jù)的搜集與整合,抽樣帶來的誤差被大數(shù)據(jù)極大地稀釋了。這一優(yōu)勢在做宏觀決策方面有著深刻的價值體現(xiàn),如果對群體中的樣本數(shù)據(jù)采用抽樣的方式,可能出現(xiàn)抽樣偏差的情況,最終得到的宏觀決策不可信賴。

第二,大數(shù)據(jù)有助于信息快速聚合。大數(shù)據(jù)依托其大體量、高速度、高效用以及多樣化的特征,在信息聚合方面具有顯著優(yōu)勢。大體量的特征使得大數(shù)據(jù)能夠產(chǎn)生巨大的數(shù)據(jù)流,將數(shù)據(jù)不斷聚合,使數(shù)據(jù)從稀缺到豐富、從靜態(tài)到動態(tài)、從分散到聚合,這為復雜的研究分析與模型演繹建立了可靠的數(shù)據(jù)基礎。高速度的大數(shù)據(jù)能夠?qū)崟r數(shù)據(jù)進行快速采集并加以分析應用,將信息聚合的時間大大縮短,在電子商務的海量交易等場景下,可以發(fā)揮其無與倫比的高速度特點。高效用的大數(shù)據(jù)在進行信息聚合后能夠在用戶畫像、精準營銷以及預測走勢上提供更多價值,從而使得數(shù)據(jù)信息產(chǎn)生的效用最大化。而多樣化的大數(shù)據(jù)結(jié)構(gòu)豐富、來源眾多,有助于得到更加普適性的結(jié)論,這在社會和自然科學等領(lǐng)域有著顯著的體現(xiàn)。例如,加拿大麥吉爾大學的Ford教授指出,大數(shù)據(jù)在氣候變化方面的應用將大大改變?nèi)藗儗夂蜃兓芾淼睦斫狻?/p>

第三,大數(shù)據(jù)具有顯著的海量數(shù)據(jù)信息檢索能力。大數(shù)據(jù)在檢索方面的優(yōu)勢主要體現(xiàn)在業(yè)界的實際應用方面。由于信息時代的計算機技術(shù)得到長足發(fā)展,各行業(yè)均可在短時間內(nèi)依托計算機技術(shù)實現(xiàn)海量數(shù)據(jù)的處理。例如,金融行業(yè)可以基于人們?nèi)粘M顿Y習慣、消費習慣以及收入開支等數(shù)據(jù)信息檢索,建立健全社會信用體制以及識別欺詐行為;問詢系統(tǒng)是業(yè)界最常用的工具之一,它基于前期積累的問答信息以及學習生成的海量信息,通過信息檢索匹配出最準確的問詢結(jié)果,以較低的成本極大地提高了用戶的問題咨詢效率。這些實踐和應用得益于大數(shù)據(jù)的“4V”特征,在海量數(shù)據(jù)信息處理過程中具有極其顯著的優(yōu)勢。

其次,小數(shù)據(jù)應用不甘示弱。技術(shù)水平的進步不僅帶來了大數(shù)據(jù)也帶來了更多的小型數(shù)據(jù)集合,并且小數(shù)據(jù)能夠以更加迅速和更為低廉的成本獲得結(jié)論。它在靈活性、隱私保護和因果關(guān)系深度挖掘方面具有絕佳的優(yōu)勢。

第一,小數(shù)據(jù)在搜集數(shù)據(jù)時更為靈活。我們通常認為人們搜集、處理海量數(shù)據(jù)的行為是一種帶有特定目的的理性行為,所以需要提前規(guī)劃好數(shù)據(jù)和應用的框架,以便更好地處理海量數(shù)據(jù)信息。相比于大數(shù)據(jù)“船大難掉頭”,小數(shù)據(jù)在數(shù)據(jù)搜集時則顯得更為靈活。例如,聯(lián)合利華、雀巢以及歐萊雅等快消行業(yè)品牌都傾向于投入較多資金在問卷調(diào)查這種小數(shù)據(jù)搜集項目上,這是因為問卷設計者可以根據(jù)自身需求對問卷進行設計,從而更加清楚和細致地了解消費者對產(chǎn)品的態(tài)度與看法,而企業(yè)的大數(shù)據(jù)則只能根據(jù)已有大數(shù)據(jù)資產(chǎn)進行挖掘分析。此外,雖然大數(shù)據(jù)具備基于海量數(shù)據(jù)對未來發(fā)展進行預測的能力,但是只能對事物發(fā)展大體走向給予初步判斷,無法在一些特定環(huán)境下做出合理的預測。相比之下,小數(shù)據(jù)在預測分析特定情況或小概率事件時,能夠根據(jù)實際情況靈活制定數(shù)據(jù)的搜集策略,從而得到更加出色的預測結(jié)果。因此,如果說大數(shù)據(jù)搜集是協(xié)調(diào)統(tǒng)一的“團隊行動”,那么小數(shù)據(jù)搜集則更像靈活多變的“單兵作戰(zhàn)”。

第二,小數(shù)據(jù)對隱私更加“友好”。表面上大數(shù)據(jù)很容易獲得,但事實并非如此,因為具有研究價值的數(shù)據(jù)往往涉及商業(yè)機密、個人隱私或者經(jīng)濟利益等問題,這給大數(shù)據(jù)在隱私保護方面帶來了巨大挑戰(zhàn)。例如,在智能城市建設當中,公民的一些活動數(shù)據(jù)被相關(guān)機構(gòu)所獲取,這對大部分守法公民的個人數(shù)據(jù)隱私造成了威脅。此外,基于用戶位置信息和上網(wǎng)數(shù)據(jù)痕跡等大數(shù)據(jù),為用戶推送相關(guān)的廣告內(nèi)容也成為大數(shù)據(jù)在隱私保護方面的一個挑戰(zhàn),因為不僅用戶的個人信息隨時隨地被網(wǎng)絡監(jiān)聽,而且一些彈出廣告也對用戶體驗造成了極大困擾。然而,小數(shù)據(jù)則在保護受訪者隱私方面交出了滿意的“答卷”。一方面,由于小數(shù)據(jù)的搜集通常是以問卷調(diào)查或隨機抽樣的形式展開的,所以小數(shù)據(jù)在搜集數(shù)據(jù)的過程中能夠做到尊重受訪者意愿并保持匿名受訪的方式;另一方面,小數(shù)據(jù)在搜集后通常多為一手數(shù)據(jù),所有權(quán)和使用權(quán)都為小數(shù)據(jù)的搜集者所掌握,這對數(shù)據(jù)的隱私保護更為友好。

第三,小數(shù)據(jù)更注重對數(shù)據(jù)間因果關(guān)系的深度挖掘。由于小數(shù)據(jù)通常根據(jù)實際研究需要有針對性地進行收集,所以獲得的數(shù)據(jù)更加個性化,可以從這些個性化的小數(shù)據(jù)中深度挖掘數(shù)據(jù)信息中的因果關(guān)系。而大數(shù)據(jù)具備的特性,使得它更擅長從數(shù)據(jù)中發(fā)現(xiàn)事物間的相關(guān)性,但在分析數(shù)據(jù)間的因果關(guān)系時總顯得力不從心。例如,在研究樓盤開業(yè)與人流量之間的關(guān)系時,發(fā)現(xiàn)樓盤開業(yè)與前來現(xiàn)場的人數(shù)具有較高的相關(guān)系數(shù),通過大數(shù)據(jù)分析方法只能證明這兩者之間具有較強的相關(guān)性,而不能確定兩者之間是否存在明確的因果關(guān)系,原因在于無法確認是樓盤開業(yè)吸引人們前來現(xiàn)場,還是開盤當天站臺明星吸引了人們前來。要厘清這其中的因果關(guān)系,還需要通過小數(shù)據(jù)進行更為精確、更加細致和富有內(nèi)涵的深度分析。因此,數(shù)據(jù)驅(qū)動成就了大數(shù)據(jù)快速挖掘事物表面的相關(guān)性,但這些淺層次的相關(guān)性還不足以讓我們看清事物的深層次本質(zhì),而小數(shù)據(jù)在因果關(guān)系的深度挖掘方面則具有更加細膩的優(yōu)勢。

如何將大數(shù)據(jù)和小數(shù)據(jù)融合成智能數(shù)據(jù)

一是打破大數(shù)據(jù)和小數(shù)據(jù)壁壘。當前,大數(shù)據(jù)的應用發(fā)展日益成熟,各種結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)搜集已經(jīng)十分便捷。然而,相比于大數(shù)據(jù),小數(shù)據(jù)不僅分散,而且數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一,這導致了大數(shù)據(jù)和小數(shù)據(jù)在接口上陷入難以結(jié)合的窘境。如果能將大數(shù)據(jù)和小數(shù)據(jù)的數(shù)據(jù)壁壘打破,實現(xiàn)大小數(shù)據(jù)的整合,那么就能充分挖掘數(shù)據(jù)中的價值,實現(xiàn)數(shù)據(jù)價值增益。而構(gòu)建數(shù)據(jù)中臺可能是最有望解決這一問題的方式。數(shù)據(jù)中臺是連接數(shù)據(jù)和應用的中間層,可以將數(shù)據(jù)湖中不同數(shù)據(jù)的口徑進行標準統(tǒng)一。因此,可以借助數(shù)據(jù)中臺打破大數(shù)據(jù)和小數(shù)據(jù)間的數(shù)據(jù)壁壘,實現(xiàn)二者的有機結(jié)合。一個最直觀的例子,新型冠狀病毒疫情暴發(fā)后,為了追蹤病毒感染者可能的傳播范圍,早期相關(guān)部門通過新聞廣播感染者乘坐交通工具的座位信息,地毯式搜尋可能被傳染的人員。然而,這種方式不僅費時費力,而且隨著病毒感染人數(shù)不斷增加,后期已經(jīng)杯水車薪。隨著健康二維碼在杭州首先被推出后,其迅速被全國各地所采用。它整合了手機用戶的定位信息、付款交易信息和乘坐交通工具信息等多源大數(shù)據(jù),并且根據(jù)用戶填報的居住信息、體溫信息和近兩周內(nèi)出行信息等,搜集到了個體小數(shù)據(jù)。這些大數(shù)據(jù)和小數(shù)據(jù)匯聚形成數(shù)據(jù)湖后,經(jīng)過數(shù)據(jù)中臺處理分析,生成個性化的健康二維碼,從而為追蹤可能被病毒感染的人員提供了快速有效的方法。

二是通過大數(shù)據(jù)技術(shù)挖掘小數(shù)據(jù)集合。數(shù)據(jù)、算法和算力作為驅(qū)動數(shù)據(jù)科學發(fā)展的三大基石,它告訴我們數(shù)據(jù)只是數(shù)據(jù)時代的一部分內(nèi)容,更重要的是如何挖掘出數(shù)據(jù)中蘊藏的巨大價值,這也正是大數(shù)據(jù)能持續(xù)風靡全球的原因。大數(shù)據(jù)的價值不僅在于它的數(shù)據(jù)量大,還因為有機器學習、深度學習和人工智能算法等大數(shù)據(jù)技術(shù),可以充分挖掘其價值。如果我們將這種大數(shù)據(jù)的思維也類比應用于小數(shù)據(jù)上,讓大數(shù)據(jù)技術(shù)賦能小數(shù)據(jù),同樣也可以挖掘出小數(shù)據(jù)中的大價值。例如,聚類分析是大數(shù)據(jù)技術(shù)中最常見的一種數(shù)據(jù)挖掘方式,它可以將群體中具有相似特征的個體進行歸類。這種方法可以用于挖掘商場中消費者的個性化小數(shù)據(jù),從而為消費者提供個性化的精準導購服務。因為導購員可以通過交流,發(fā)現(xiàn)消費者的年齡、性別和喜好等個性化特征,如果能搜集整理好這些個性化的小數(shù)據(jù),然后將這些小數(shù)據(jù)進行聚類分析,可以把不同的消費者歸類,從而針對同一類消費者的喜好情況制定特定的導購服務,不僅能給消費者提供更加個性化的精準服務,商場也可以省去大量的無效工作。雖然如今大數(shù)據(jù)備受追捧,但是我們也不能忽視“以人為本”的社會發(fā)展本質(zhì),最終社會的發(fā)展方向也一定會走向越來越個性化和精準化。因此,將個性化的小數(shù)據(jù)結(jié)合大數(shù)據(jù)技術(shù)進行挖掘分析,可以更加充分地釋放小數(shù)據(jù)中的大價值。并且相比于大數(shù)據(jù)的挖掘結(jié)果,小數(shù)據(jù)的挖掘反倒可以得到更加個性化的數(shù)據(jù)信息,這充分發(fā)揮了大數(shù)據(jù)的技術(shù)優(yōu)勢和小數(shù)據(jù)的個性化優(yōu)勢。

三是用小數(shù)據(jù)中的信息補充大數(shù)據(jù)中的規(guī)律。由于大數(shù)據(jù)在數(shù)據(jù)量方面的優(yōu)勢,使得它能夠更加全面地從海量數(shù)據(jù)信息中發(fā)現(xiàn)總體規(guī)律。然而,也正因如此,大數(shù)據(jù)在發(fā)現(xiàn)數(shù)據(jù)信息背后的總體規(guī)律時,也犧牲了數(shù)據(jù)信息背后的個性化規(guī)律,而這些個性化規(guī)律有時候往往具有更大的價值。因此,我們在挖掘大數(shù)據(jù)的總體規(guī)律時,也應該注意個性化規(guī)律,用小數(shù)據(jù)中的個性化信息補充大數(shù)據(jù)中的總體規(guī)律,從宏觀和微觀兩個層面充分剖析數(shù)據(jù)的內(nèi)在含義和價值。大數(shù)據(jù)在醫(yī)療方面的應用是當前大數(shù)據(jù)最成功的實踐應用之一。一些疾病診斷可以通過大數(shù)據(jù)的方法,從搜集的海量病例數(shù)據(jù)庫中挖掘出類似的疾病規(guī)律供診斷參考,從而實現(xiàn)疾病診斷工作提速增效。但是大數(shù)據(jù)中發(fā)現(xiàn)的總體規(guī)律只是提供一種高效的參考而已,每位患者的具體情況存在差異,醫(yī)生還需要結(jié)合患者的個性化小數(shù)據(jù)信息來最終確診疾病。即便未來大數(shù)據(jù)醫(yī)療在技術(shù)層面取得更大突破,個性化小數(shù)據(jù)中的信息和大數(shù)據(jù)中的規(guī)律相結(jié)合依然會是最好的方式,特別是針對疑難雜癥。例如,同樣是肺炎,但是致病的機理卻有不同類型,如果我們沒有對小數(shù)據(jù)中的信息進行分析,就無法獲知這其中的因果關(guān)系。特別是當肺炎大數(shù)據(jù)中主體規(guī)律掩蓋了數(shù)據(jù)中小部分個性化規(guī)律時,只看到數(shù)據(jù)的表明現(xiàn)象,而沒有厘清內(nèi)在的因果關(guān)系,可能會造成無法想象的后果。因此,我們不僅要知其然還要知其所以然,這需要從小數(shù)據(jù)信息中發(fā)現(xiàn)其中的因果關(guān)系,為大數(shù)據(jù)中的規(guī)律錦上添花。

(作者分別為湖南大學工商管理學院副院長,教授、博導;湖南大學數(shù)據(jù)科學與區(qū)塊鏈研究院院長,湖南大學工商管理學院教授)

【參考文獻】

①蘇令銀:《大數(shù)據(jù)時代的小數(shù)據(jù)會消亡嗎》,《探索與爭鳴》,2019年第7期。

責編/韓拓   美編/楊玲玲

聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個人轉(zhuǎn)載請回復本微信號獲得授權(quán),轉(zhuǎn)載時務必標明來源及作者,否則追究法律責任。   

[責任編輯:谷漩]