資源描述:
《高效用隱私保護(hù)數(shù)據(jù)挖掘的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、碩士學(xué)位論文高效用隱私保護(hù)數(shù)據(jù)挖掘的研究RESEARCHONPRIVACYPRESERVINGHIGHUTILITYMINING林果哈爾濱工業(yè)大學(xué)2015年12月國(guó)內(nèi)圖書分類號(hào):TP301.6學(xué)校代碼:10213國(guó)際圖書分類號(hào):861.004.6密級(jí):公開工程碩士學(xué)位論文高效用隱私保護(hù)數(shù)據(jù)挖掘的研究碩士研究生:林果導(dǎo)師:吳祖揚(yáng)助理教授申請(qǐng)學(xué)位:工程碩士學(xué)科:計(jì)算機(jī)技術(shù)所在單位:深圳研究生院答辯日期:2015年12月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP301.6U.D.C:861.004.6Di
2、ssertationfortheMaster’sDegreeofEngineeringRESEARCHONPRIVACYPRESERVINGHIGHUTILITYMININGCandidate:GuoLinSupervisor:AssistantProf.Tsu-YangWuAcademicDegreeAppliedfor:Master’sDegreeofEngineeringSpeciality:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefe
3、nce:December,2015Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要如何在大量且復(fù)雜的數(shù)據(jù)中找出有用的信息,并把這些信息轉(zhuǎn)變成可理解的知識(shí),為決策者提供有力的決策依據(jù),已經(jīng)成為數(shù)據(jù)擁有者關(guān)心的重點(diǎn)。最早被用于知識(shí)分析的是頻繁項(xiàng)集挖掘和關(guān)聯(lián)規(guī)則挖掘,它們能夠從事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)商品之間的潛在關(guān)系,屬于布爾類型的挖掘方式。高效用項(xiàng)集挖掘是頻繁挖掘的一種拓展挖掘方式,因?yàn)樗瑫r(shí)考慮事務(wù)中項(xiàng)的數(shù)量和效用值,所以可以用它
4、來(lái)衡量項(xiàng)集的有用程度。然而在數(shù)據(jù)的收集和分發(fā)傳播過(guò)程中,數(shù)據(jù)中存在的一些機(jī)密或敏感信息(例如,信用卡號(hào)、工資信息或是個(gè)人電話號(hào))可以通過(guò)數(shù)據(jù)挖掘的方式將其發(fā)現(xiàn)。對(duì)于數(shù)據(jù)擁有者來(lái)說(shuō),這些敏感和機(jī)密信息在數(shù)據(jù)發(fā)布或是共享之前是需要被隱藏的。高效用數(shù)據(jù)挖掘能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的高效用項(xiàng)集,從這些高項(xiàng)用項(xiàng)集能導(dǎo)出一些利益相關(guān)的競(jìng)爭(zhēng)信息,損害數(shù)據(jù)擁有者的利益。因此,高效用隱私保護(hù)數(shù)據(jù)挖掘已經(jīng)成了高效用項(xiàng)集挖掘中的一個(gè)關(guān)鍵研究議題。本課題的主要目的是研究如何發(fā)現(xiàn)和以更小的副作用隱藏高效用挖掘結(jié)果中的敏感高效用項(xiàng)集,保證用戶在發(fā)布和共享數(shù)據(jù)
5、時(shí)不會(huì)造成私密信息泄露問(wèn)題。相對(duì)于傳統(tǒng)用戶給定敏感項(xiàng)集,本研究提出的基于競(jìng)爭(zhēng)項(xiàng)分析的指定保護(hù)項(xiàng)敏感項(xiàng)集發(fā)現(xiàn)算法,能根據(jù)用戶所指定保護(hù)項(xiàng)分析出敏感項(xiàng)集。用戶可能并不知道什么是要保護(hù)的項(xiàng),所以本研究還提出了另一種自動(dòng)偵測(cè)數(shù)據(jù)中敏感項(xiàng)集的方法,該方法對(duì)每個(gè)項(xiàng)集分析得出一個(gè)敏感度,然后從這些項(xiàng)集中取出K個(gè)具有最大敏感度值的高效用項(xiàng)集作為敏感項(xiàng)集。根據(jù)隱藏需求本研究提出了三個(gè)基于最大敏感效用值(MSU)的高效用敏感項(xiàng)集隱藏算法,這三種算法根據(jù)不同的策略來(lái)選擇要修改的目標(biāo)項(xiàng)。由于現(xiàn)有的高效用隱私保護(hù)算法副作用評(píng)價(jià)指標(biāo)存在一些不足,本
6、論文完善并提出了三種副作用評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)表明,所提方法的隱藏代價(jià)比過(guò)去方法平均降低了10%,對(duì)密集型數(shù)據(jù)集則有更好的效果。在數(shù)據(jù)庫(kù)效用值相似度、數(shù)據(jù)庫(kù)結(jié)構(gòu)相似度和項(xiàng)集效用值相似度上都比已有方法好。在對(duì)數(shù)據(jù)庫(kù)修改方面,能以更小的事務(wù)修改次數(shù)和數(shù)據(jù)庫(kù)修改次數(shù)完成隱藏,從而盡可能地保留數(shù)據(jù)庫(kù)中的數(shù)據(jù)。關(guān)鍵詞:高效用隱私保護(hù);項(xiàng)集隱藏;最小副作用;自動(dòng)偵測(cè);最大敏感信息-I-哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractItisthemajorconcernfordataownertofindtheusefulinformati
7、onfromtheamountsofdataandtransformthemtotheunderstandableknowledge.Thosediscoveredknowledgecanbeusedtoprovidethebasisformakingefficientstrategiesordecisions.Thefundamentalwayofknowledgediscoveryindatabases(KDD)isfrequentitemsetmining(FIM)orassociation-rulemining(
8、ARM),whichcanbeusedtofindtheimplicitandpotentialrelationshipsamongthepurchaseitemsinthebinarydatabases.High-utilityitemsetmining(HUIM)isanextensionofFIMwhichco