資源描述:
《基于數(shù)據(jù)挖掘的網(wǎng)頁惡意代碼檢測(cè)技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號(hào)學(xué)號(hào)M200972548學(xué)校代號(hào)10487密級(jí)碩士學(xué)位論文基于數(shù)據(jù)挖掘的網(wǎng)頁惡意代碼檢測(cè)技術(shù)研究學(xué)位申請(qǐng)人:鮑金霞學(xué)科專業(yè):信息安全指導(dǎo)教師:李芝棠教授答辯日期:2012年1月11日AThesisSubmittedinFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringResearchonWebMaliciousCodeDetectingApproachesBasedonDataMiningCandidate:BaoJinxiaMajor:InformationSecuritySupervisor:P
2、rof.LiZhitangHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaJan,2012獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對(duì)本文的研究做出貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國(guó)家有關(guān)部
3、門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□,在_____年解密后適用本授權(quán)書。本論文屬于不保密□。(請(qǐng)?jiān)谝陨戏娇騼?nèi)打“√”)學(xué)位論文作者簽名:指導(dǎo)教師簽名:日期:年月日日期:年月日華中科技大學(xué)碩士學(xué)位論文摘要Web應(yīng)用的日益增多,導(dǎo)致網(wǎng)頁攻擊日益猖獗,越來越多的惡意軟件利用網(wǎng)頁作為其傳播載體,傳播過程也越來越隱蔽,對(duì)用戶造成了巨大的威脅。研究如何準(zhǔn)確有效地檢測(cè)網(wǎng)頁惡意代碼具有重要的意義。傳統(tǒng)的基于網(wǎng)頁內(nèi)容或網(wǎng)址的靜態(tài)檢測(cè)方法由
4、于誤報(bào)率高而缺乏實(shí)際應(yīng)用價(jià)值,模擬真實(shí)運(yùn)行環(huán)境的動(dòng)態(tài)檢測(cè)方法則因資源消耗大而難以獲得較高的性能。基于數(shù)據(jù)挖掘的網(wǎng)頁惡意代碼檢測(cè)技術(shù),通過數(shù)據(jù)挖掘的方法生成一種漏報(bào)率較低的分類模型,希望通過將該分類模型與動(dòng)態(tài)檢測(cè)方法相結(jié)合,達(dá)到低誤報(bào)率同時(shí)低漏報(bào)率的檢測(cè)目標(biāo)。通過對(duì)大量網(wǎng)頁惡意代碼的研究,分類型總結(jié)了網(wǎng)頁惡意代碼的特征。針對(duì)這些特征,采用了相應(yīng)的特征提取技術(shù):采用HTMLParser工具包提取HTML特征,采用正則表達(dá)式字符串匹配技術(shù)初步提取JavaScript特征,對(duì)經(jīng)過混淆的JavaScript代碼采用擴(kuò)展的Rhino引擎進(jìn)行特征的解析提取。由于Rhino引擎只提供了對(duì)核心
5、JavaScript功能的支持,詳細(xì)研究了Rhino引擎的擴(kuò)展技術(shù)。分類模型生成過程中,研究對(duì)比了樸素貝葉斯算法、決策樹算法以及SVM算法的分類結(jié)果,同時(shí)研究了漏報(bào)率和誤報(bào)率的調(diào)整,HTML特征與JavaScript特征分別進(jìn)行分類所得結(jié)果的對(duì)比等。研究所得分類模型已應(yīng)用于實(shí)際的檢測(cè)系統(tǒng),取得了良好的檢測(cè)效果,針對(duì)檢測(cè)過程中發(fā)現(xiàn)的問題,后續(xù)還將繼續(xù)進(jìn)行研究改進(jìn)。關(guān)鍵字:網(wǎng)頁惡意代碼,數(shù)據(jù)挖掘,靜態(tài)檢測(cè),腳本解析引擎-I-華中科技大學(xué)碩士學(xué)位論文AbstractAstheincreasingofwebapplications,webattacksareincreasing.Mo
6、reandmoremalicioussoftwarespreadthroughwebpages,andincreasinglysophisticated.Usersecurityisfacingahugethreat.Studyhowtoaccuratelyandefficientlydetectmaliciouswebcodeisofgreatsignificance.Becauseofhighrateoffalsepositive,traditionalstaticdetectionmethods,basedonwebcontentorURL,lackpracticala
7、pplicability.Meanwhile,dynamicdetection,simulatingarealrunningenvironment,isdifficulttoobtainahigherperformanceduetoresourceconsumption.Thedetectiontechnologyofmaliciouswebcode,basedondatamining,throughdataminingproducesaclassificationmodelwithlowerfalse