資源描述:
《隱私保護數(shù)據(jù)挖掘研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、隱私保護數(shù)據(jù)挖掘研究隱私保護數(shù)據(jù)挖掘方法的研究隱私保護數(shù)據(jù)挖掘方法的研究1.研究背景數(shù)據(jù)挖掘是近年來十分活躍的研究領(lǐng)域。數(shù)據(jù)挖掘即提取或挖掘知識。它是從數(shù)據(jù)中抽取隱含的、未知的和潛在有用的信息。隨著信息技術(shù),特別是網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)存儲技術(shù)和高性能處理器技術(shù)的飛速發(fā)展,海量數(shù)據(jù)的收集、管理和分析變得越來越方便,知識發(fā)現(xiàn)和數(shù)據(jù)挖掘更是在一些深層次的應(yīng)用中發(fā)揮了積極的作用。但與此同時,也帯來了隱私保護方面的諸多問題。比如在醫(yī)學中,為了分析某種病的發(fā)病率,幾家醫(yī)院可能將自C擁有的數(shù)據(jù)綜合起來進行分析,但是這可能涉及病人的隱私或是病人不愿意被別人知道所患的病癥而不愿意共享數(shù)據(jù)。所以必須要采
2、用某些技術(shù)于段來控制和預(yù)防在數(shù)據(jù)挖掘過程中隱私信息的泄露問題。所以,如何在數(shù)據(jù)挖掘過程中解決好隱私保護的問題,前已經(jīng)成為數(shù)據(jù)挖掘界的一個研究熱點。首先需要明確的是,可能泄露隱私的并不是數(shù)據(jù)挖掘技術(shù)木身,而是數(shù)據(jù)挖掘方法的特定應(yīng)用和具體過程。數(shù)據(jù)挖掘冇一個重耍特征,就是從人量數(shù)據(jù)中挖掘出來的模式或者規(guī)則,通常是針對綜合數(shù)據(jù)而非細節(jié)數(shù)據(jù)。那么,我們是否町以棊于非精確的原始數(shù)據(jù)而抽取出精確的模式與規(guī)則?實現(xiàn)隱私數(shù)據(jù)的合理保護和基于統(tǒng)計數(shù)據(jù)的模式抽収兩者兼得,正是隱私保護數(shù)據(jù)挖掘方法的出發(fā)點和最終LI標。2.相關(guān)知識(1)數(shù)據(jù)挖掘。簡單的說,數(shù)據(jù)挖掘是指從人量數(shù)據(jù)小提取和挖掘知識。這和
3、普通的挖掘不一樣,這里的挖掘并不是挖掘存在的實體,比如挖掘礦石。這里的挖掘是指從數(shù)據(jù)中挖掘知識。就是未知的,潛在有用的信息。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機應(yīng)用分析)的木質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提卜?去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和町實用三個特征。先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠首覺發(fā)現(xiàn)的信息或知識,其至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越冇價值?在商業(yè)應(yīng)用中最典型的例子就是一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩丿求布和啤酒之間有著驚人的聯(lián)系。(2)數(shù)據(jù)挖掘可以發(fā)現(xiàn)的模
4、式類型。i)概念/類描述。特征化和區(qū)分;ii)挖掘頻繁模式、關(guān)聯(lián)和相關(guān);ill)分類和預(yù)測;iv)聚類分析;V)離群點分析;vi)演變分析;(3)隱私。簡單地說,隱私就是個人、機構(gòu)等實體不愿意被外部世界知曉的信息。在具體應(yīng)用屮,隱私即為數(shù)據(jù)所有考不愿意被披露的敏感信息,包括敏感數(shù)據(jù)以及數(shù)據(jù)所表征的特性。通常我們所說的隱私都指敏感數(shù)據(jù),如個人的薪資、病人的患病記錄、公司的財務(wù)信息等。但當針對不同的數(shù)據(jù)以及數(shù)據(jù)所有者時,隱私的定義也會存在差別的。例如保守的病人會視疾病信息為隱私,而開放的病人卻不視Z為隱私。一般地,從隱私所有者的角度而言,隱私可以分為兩類:i)個人隱私(indivi
5、dualprivacy):任何町以確認特定個人或與町確認的個人相關(guān),但個人不愿被暴露的信息,都叫做個人隱私,如身份證號、就診記錄等。ii)共同隱私(corporateprivacy):共同隱私不僅包含個人的隱私,還包含所有個人共同表現(xiàn)出但不愿被眾露的信息。如公司員工的平均薪資、薪資分布等信息。1.隱私保護數(shù)據(jù)挖掘主要研究方向及研究現(xiàn)狀3.1隱私保護數(shù)據(jù)挖掘的主要研究方向隱私保護在數(shù)據(jù)挖掘領(lǐng)域的應(yīng)川主耍町分為3個方向:i)在關(guān)聯(lián)挖掘規(guī)則挖掘ii)分類挖掘ill)聚類挖掘3.2研究現(xiàn)狀?卜?面就上述三個方向的研究現(xiàn)狀進行概述。1)在關(guān)聯(lián)規(guī)則挖掘方而。目前主要有兩種方法。a)隱藏頻繁
6、項Fl集。實際上就是對原始數(shù)據(jù)進行隱私保護處理來防止涉及隱私及相關(guān)的重要信息的關(guān)聯(lián)規(guī)則的產(chǎn)生。b)盡可能使涉及隱私規(guī)則或信息的置信度遠遠小于規(guī)定的最低苣信度。ii)數(shù)據(jù)集中分布的隱私保護分類挖掘。主要有兩種方法。a)使用隨機響應(yīng)方法。b)添加隨機偏移量的方法。iii)聚類挖掘算法方面。主要通過幾何轉(zhuǎn)換等對原始數(shù)據(jù)進行轉(zhuǎn)化,從而達到保護原始數(shù)據(jù)的效果。3.隱私數(shù)據(jù)挖掘方法的研究3.1隱私保護數(shù)據(jù)挖掘的分類冃前隱私保護的數(shù)據(jù)挖掘方法按照棊本策略主要有數(shù)據(jù)擾亂法、查詢限制法和混介策略。i)數(shù)據(jù)擾亂法。數(shù)據(jù)干擾法是對數(shù)據(jù)進行隨機變換、數(shù)據(jù)離散化和在數(shù)據(jù)中添加噪聲,從而對原始數(shù)據(jù)進行十擾
7、,然后再針對經(jīng)過十擾的數(shù)據(jù)進行挖掘,得到所需的模式和規(guī)則。數(shù)據(jù)擾亂法的代表算法是MASK(MiningAssociationwithSecrecyKonstraints)算法。ii)查詢限制的策略。杳詢限制策略是通過數(shù)據(jù)隱藏、數(shù)據(jù)抽樣和數(shù)據(jù)劃分等方式,從而盡量限制數(shù)據(jù)挖掘者擁有完整的原始數(shù)據(jù),再利用概率統(tǒng)計的方法或者分布式計算這些數(shù)學方法來得到所需要的挖掘結(jié)果。但是這兩種策略木身都存在著一些固冇的缺陷。在采用數(shù)據(jù)干擾策略的方法中,所冇經(jīng)過干擾的數(shù)據(jù)均與真實的原始數(shù)據(jù)相關(guān),而且若數(shù)據(jù)缺損嚴重,