大數(shù)據(jù)時代下,數(shù)據(jù)的收集與應(yīng)用在帶來巨大社會價值的同時,也帶來了個人隱私保護方面的難題。如何在對數(shù)據(jù)進行挖掘應(yīng)用的過程中保護個人隱私,防止敏感信息泄露成為新的挑戰(zhàn)。
在此前備受關(guān)注的“劍橋分析公司數(shù)據(jù)泄露”事件中,F(xiàn)acebook上超過5000萬用戶的信息被一家名為“Cambridge Analytica”的公司不當(dāng)獲取并用于未經(jīng)授權(quán)的目的。然而,根據(jù)Facebook的解釋,這些個人信息,例如用戶填寫的心理測試結(jié)果,全部是在經(jīng)過“匿名化”處理后才被用于對外分享的。公司表示,在獲取用戶的授權(quán)后,這些數(shù)據(jù)會“通過匿名的方式被使用和分發(fā),并且保證即使利用這些信息也不能追溯到個人用戶”。
然而“匿名化”真的可以在大數(shù)據(jù)時代保護我們的個人隱私嗎?
2015年,數(shù)據(jù)匿名化和隱私領(lǐng)域的研究員Latanya Sweeney針對華盛頓HIPAA(Health Insurance Portability and Accountability)法案保護下的醫(yī)療記錄數(shù)據(jù)進行了一項“去匿名化”研究。在該州(以及許多其他州),公司和個人可以購買匿名的醫(yī)療記錄數(shù)據(jù)。Sweeney通過合法渠道購買相關(guān)數(shù)據(jù),其中包括“該州一年內(nèi)幾乎所有的住院治療記錄”以及就診記錄相關(guān)的大量細(xì)節(jié),包括患者接受的診斷、手術(shù),主治醫(yī)生信息、收費摘要等等。這些記錄都是匿名的,因為它們不包含患者的姓名或地址,但包括患者所在地址的郵政編碼。
之后,Sweeney查閱了華盛頓州自2011年以來刊發(fā)的所有包含“住院治療”一詞的新聞報道,總共找到了81篇文章。通過對文章內(nèi)容和匿名數(shù)據(jù)庫進行比對分析,Sweeny發(fā)現(xiàn)其中35篇報道能夠在數(shù)據(jù)庫中找到與之精準(zhǔn)對應(yīng)的唯一醫(yī)療記錄。而這些新聞報道中明確包含了患者的姓名,“成功”實現(xiàn)了對這35名患者的“去匿名化”。
眾所周知,數(shù)據(jù)已成為現(xiàn)代社會發(fā)展的重要推動力。研究人員會收集大量的數(shù)據(jù),并基于數(shù)據(jù)開展研究工作。Google的數(shù)據(jù)庫可以包含你的完整搜索歷史記錄;Facebook存儲著大量用戶的行為、評論和照片信息。這些數(shù)據(jù)決定著我們會看到哪些新聞、電影和廣告,哪些朋友的帖子會出現(xiàn)在我們社交媒體的feed流中,以及哪些潛在的伴侶會出現(xiàn)在我們的交友app中。然而,這里涉及的大部分?jǐn)?shù)據(jù)都與我們的個人隱私息息相關(guān)。
政府、企業(yè)和研究機構(gòu)持續(xù)收集著大量的數(shù)據(jù)
通常情況下,我們不會向陌生人透露我們的信用卡記錄或醫(yī)療記錄,因為我們對這些數(shù)據(jù)的敏感性有著清晰的認(rèn)識。那么,為什么我們會泄露這些最私密的個人信息呢?原因是大多數(shù)人首先是數(shù)據(jù)“泄露”的受益者。Google通過收集數(shù)據(jù)優(yōu)化搜索體驗,并幫助Gmail過濾垃圾郵件;用戶信用卡記錄可以幫助銀行監(jiān)測信用卡盜刷行為;醫(yī)療記錄可以幫助研究人員研發(fā)新藥,或者幫助醫(yī)生制定更好的治療計劃。
但人們享受這些益處并非沒有代價。政府、企業(yè)和研究機構(gòu)持續(xù)進行著大量的數(shù)據(jù)收集,而這僅僅是這一系列數(shù)據(jù)旅程的開始。它們將被重新打包,與來自其他來源的數(shù)據(jù)相結(jié)合,并通過合法或非法的方式被轉(zhuǎn)售給“需要的人”。典型的數(shù)據(jù)包括:
? 你的位置(包括實時的與歷史上的)
? 你的信用卡交易記錄
? 你的網(wǎng)站瀏覽歷史記錄
? 你在網(wǎng)站的登錄憑據(jù)
? 你的社會安全號碼
? 你的醫(yī)療記錄
即使你認(rèn)為自己并沒有什么需要隱藏的“秘密”,對個人數(shù)據(jù)的濫用仍可能對你造成不利影響。因此,大部分相關(guān)方在存儲或轉(zhuǎn)售個人信息時,一直在努力實現(xiàn)個人數(shù)據(jù)的“匿名化”。某些情況下,數(shù)據(jù)匿名化存在法律要求,例如HIPAA對個人醫(yī)療數(shù)據(jù)的要求,盡管HIPAA提供的保護并不像大多數(shù)人想象的那么強。類似的,歐盟最新的通用數(shù)據(jù)保護條例(GDPR)對能夠識別個人身份信息的數(shù)據(jù)提出了嚴(yán)格的使用限制,相比之下,GDPR對匿名數(shù)據(jù)的使用限制則較少。
除此之外,有些公司已經(jīng)將“數(shù)據(jù)匿名化”作為其戰(zhàn)略的一部分。例如,與Google和Facebook不同,Apple刻意減少對數(shù)據(jù)的收集,因為擁有大量數(shù)據(jù)可能會使公司更容易成為黑客的目標(biāo)。同時,Apple努力對收集的數(shù)據(jù)進行匿名化處理,并且不會對外轉(zhuǎn)售用戶數(shù)據(jù)。
這些舉措很有勇氣,值得鼓勵。遺憾的是,研究表明,許多匿名化數(shù)據(jù)都很容易被“去匿名化”,尤其是當(dāng)多個數(shù)據(jù)來源有一定程度的重疊的時候,區(qū)別一個數(shù)據(jù)來源和另一個數(shù)據(jù)來源的任一信息都能被用于去匿名化。
這里有一個關(guān)于“去匿名化”的知名案例。2006年,Netflix為改善其電影推薦服務(wù),公布了包含部分用戶評分的數(shù)據(jù)庫,其中包括用戶對電影的評分和評分日期。該數(shù)據(jù)庫是匿名的,采用隨機更改數(shù)據(jù)庫中包含的大約480,000個用戶的部分評級和評級日期等方法對數(shù)據(jù)庫進行匿名化處理。
盡管存在這些干擾,但研究人員的實驗結(jié)果表明:只需非常少的輔助信息,就可以對Netflix數(shù)據(jù)庫中的大部分的用戶記錄進行去匿名化。通過8部電影的評分,和允許誤差14天的評分日期,就可以唯一標(biāo)識數(shù)據(jù)庫中99%的用戶;而僅通過2部電影,就可以標(biāo)識68%的用戶。而一個人觀看8部電影的記錄很容易獲得,通過與其聊天或者查看他的博客就有可能得到。
電影評級可能看似無害,它們顯然不如醫(yī)療記錄敏感,但仍然可以揭示一個人的政治觀點、宗教信仰和性取向等,從而嚴(yán)重侵犯一個人的隱私并使其處于危險之中。這對于當(dāng)前的數(shù)據(jù)驅(qū)動型社會來說是一個嚴(yán)峻的挑戰(zhàn)。
隨著更多數(shù)據(jù)的公開或泄露去匿名化將變得更加容易
現(xiàn)實是,我們的數(shù)據(jù)正在被越來越多地被泄露和盜取。非營利組織Privacy Rights Clearinghouse的研究顯示,自2005年開始,14年中共發(fā)生了8804次數(shù)據(jù)泄露,超過115億條記錄被泄露。這意味著自2005年以來,平均每天發(fā)生1.7次數(shù)據(jù)泄露,220萬條記錄被泄露。當(dāng)別有用心的人將所有這些數(shù)據(jù)拼湊在一起時,數(shù)據(jù)的去匿名化將變的更加容易。
對于相關(guān)領(lǐng)域的學(xué)者來說,這些擔(dān)憂并不是什么新聞。2010年,個人隱私律師Paul Ohm就曾在《UCLA法律評論》中刊文指出,雖然惡意攻擊者可以使用個人身份信息(如姓名或社會安全號碼)將數(shù)據(jù)與個人身份進行關(guān)聯(lián),但事實證明,即便只擁有那些不會被歸類為“個人身份信息”的信息,他們也可以達到同樣的目的。
Ohm參考了Sweeney早期的一些研究,她發(fā)現(xiàn)1990年美國人口普查中有87%的人可以通過兩條信息進行唯一識別:他們的出生日期和他們住址的郵政編碼。Ohm還引用了Netflix以及其他有關(guān)數(shù)據(jù)泄露的案例,并得出結(jié)論:在傳統(tǒng)的以個人身份信息為保護重點的匿名化技術(shù)下,幾乎任何數(shù)據(jù)都無法實現(xiàn)永久的完全匿名。
2013年,研究人員發(fā)現(xiàn)位置數(shù)據(jù)具有高度的獨特性,因此更加難以匿名化。許多匿名數(shù)據(jù)庫都可能間接泄露你的位置,例如刷卡消費或前往醫(yī)院就診。研究人員發(fā)現(xiàn),通過每小時記錄4次手機連接到的信號發(fā)射塔,就可以對95%的設(shè)備進行唯一識別。如果數(shù)據(jù)更精細(xì)(GPS跟蹤而不是信號發(fā)射塔,或者實時采集而不是每小時采集),匹配則會變得更加容易。
數(shù)據(jù)的合理利用具有積極的社會價值
然而不可否認(rèn)的是,盡管面臨被濫用的風(fēng)險,但數(shù)據(jù)的合理利用同時又具有很多積極的社會價值。我們希望醫(yī)學(xué)研究人員創(chuàng)造新的藥物和治療方法、希望我們的房屋能夠自動調(diào)節(jié)到舒適的溫度、希望Google地圖提示我們前方道路擁堵。我們渴望大數(shù)據(jù)帶來的益處,卻又不想面臨去匿名化的風(fēng)險。
然而事實是,我們必須做出權(quán)衡。我們已經(jīng)被迫放棄了一些隱私,未來可能還需要放棄更多,但真正關(guān)鍵的是如何降低我們的隱私被濫用的可能性。
保護敏感數(shù)據(jù)和防止未經(jīng)授權(quán)的訪問必須成為每一個數(shù)據(jù)收集者的第一要務(wù)。同時,監(jiān)管機構(gòu)也應(yīng)持續(xù)加強對個人數(shù)據(jù)隱私的保護力度。例如,GDPR鼓勵公司存儲更少的數(shù)據(jù)并盡最大努力對存儲的數(shù)據(jù)進行匿名化處理,即使這并非100%有效。
同樣,參與數(shù)據(jù)收集和存儲的每一方都應(yīng)該及時了解最新的隱私保護技術(shù)。例如差分隱私(Differential Privacy,一種基于密碼學(xué)的隱私保護技術(shù))這樣的策略,即在數(shù)據(jù)庫發(fā)布之前將一些隨機噪聲添加到數(shù)據(jù)庫中,這有助于減少基于數(shù)據(jù)關(guān)聯(lián)性的攻擊。Apple和Google都在研究差分隱私策略方面付出了很多努力,這些舉措值得借鑒。
總而言之,我們需要坦誠面對數(shù)據(jù)帶來的價值和風(fēng)險,并謹(jǐn)慎權(quán)衡。一方面,我們希望釋放大數(shù)據(jù)的力量,為我們的生活帶來積極的改善。而另一方面,大量數(shù)據(jù)存在的本身就是一種隱私風(fēng)險。如果我們放棄過多的隱私,大數(shù)據(jù)則可能進一步剝奪我們的自由。