資源描述:
《基于dns訪問記錄挖掘的用戶群劃分》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、單位代碼:10293密級:公開碩士學位論文論文題目:基于DNS訪問記錄挖掘的用戶群劃分學號1010041011姓名楊康導師張偉學科專業(yè)信息安全研究方向計算機通信網(wǎng)與安全申請學位類別碩士論文提交日期2013-2-26UsergroupingbasedonDNSvisitrecordsminingThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByYangKangSupervisor:Prof.ZhangWeiSubm
2、issionDate:February26th,2013南京郵電大學學位論文原創(chuàng)性聲明本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得南京郵電大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。本人學位論文及涉及相關資料若有不實,愿意承擔一切相關的法律責任。研究生簽名:___________日期:____________南京郵電大學學位論文使用授權聲
3、明本人授權南京郵電大學可以保留并向國家有關部門或機構送交論文的復印件和電子文檔;允許論文被查閱和借閱;可以將學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫進行檢索;可以采用影印、縮印或掃描等復制手段保存、匯編本學位論文。本文電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。論文的公布(包括刊登)授權南京郵電大學研究生院辦理。涉密學位論文在解密后適用本授權書。研究生簽名:__________導師簽名:____________日期:_____________摘要隨著計算機網(wǎng)絡的快速蓬勃發(fā)展,信息量以極高的速度增長著,積累了海量的數(shù)據(jù)。從海量的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息成為了一大難題
4、。數(shù)據(jù)挖掘即是從大量數(shù)據(jù)中提取出潛在的、有價值的知識的過程。Web挖掘可以被看作是數(shù)據(jù)挖掘應用于Web數(shù)據(jù)時的泛稱,DNS挖掘?qū)儆赪eb挖掘中Web日志挖掘的范疇。DNS訪問記錄體現(xiàn)了網(wǎng)絡用戶的訪問意圖。DNS挖掘可以從用戶的DNS訪問記錄中抽取出感興趣的訪問模式,以達到用戶群劃分的目的。在研究數(shù)據(jù)挖掘理論的基礎之上,為滿足通過挖掘大量DNS數(shù)據(jù)來實現(xiàn)用戶分析、用戶識別的需要,本文提出了一個完整的DNS挖掘系統(tǒng)設想,并圍繞著實現(xiàn)這一設想深入開展一系列的研究工作。首先,本文深入研究了經(jīng)典的Apriori關聯(lián)規(guī)則挖掘算法,針對其缺點進行改進,并用改進后的算法
5、對DNS數(shù)據(jù)進行挖掘,發(fā)現(xiàn)了一系列零散的用戶特征。為了滿足深入研究的需要,進而引入域名分類機制、提出模式指紋的概念,并對其所應包含的要素進行了分析和論述。接著,本文詳細介紹了經(jīng)典的K-Means聚類算法,具體分析了其原理及缺點不足,并闡述了國內(nèi)外學者對其改進所做的努力和成果。之后,采取聚類有效函數(shù)與隨機重啟動相結合的方法改進K-Means算法對模式指紋進行聚類,供后續(xù)研究使用。然后,本文深入研究了決策樹分類技術,闡述了決策樹分類中最常見且十分重要的過度擬合問題,在詳細分析了其產(chǎn)生原因后,提出了“選樣剪枝”方法,并將其運用于經(jīng)典的C4.5決策樹算法,通過實
6、驗證明這種方法的有效性,進而將其應用到DNS挖掘中。最后,基于上述的研究成果,本文設計了一個DNS挖掘程序,基于域名分類機制分析產(chǎn)生用戶行為模式指紋,采用改進后的K-Means算法對用戶進行聚類,之后采用“選樣剪枝”方法改進的C4.5決策樹算法進行分類,進而完成用戶群劃分的功能,對測試結果進行了深入分析和總結,并對DNS挖掘的前景進行了展望。關鍵詞:DNS訪問記錄挖掘,關聯(lián)規(guī)則,用戶行為模式,聚類分析,決策樹IAbstractWiththeboomingofInternet,theamountofinformationisgrowingataveryhi
7、ghspeed,andvastamountsofdataareaccumulated.DataMiningistheprogressofdiscoveringusefulinformationfromalargenumberofdata.WebMiningcanbeseenasDataMiningappliedinWebarea.DNSMiningbelongstoWebMining,andisakindofWebLogMining.DNSvisitrecordsreflectsthenetworkuser’sintention.ThroughDNSMi
8、ningwecanfindthenetworkuser’sbrowsingpat