資源描述:
《惡意代碼檢測(cè)中若干關(guān)鍵技術(shù)研究.pdf》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、ResearchontheMainTechonologiesInMalwareCodeDetectionAthesissubmittedtotheSchoolofInformation&EngineeringofYangzhouUniversityInpartialfulfillmentoftherequirementsfortheMasterDegreeofComputerScienceLiangChenUndertheSupervisionofProf.BinLi&Assoc.Prof.ChenBinDep
2、artmentofComputerScience,SchoolofInformation&Engineering,YangzhouUniversityApril2012摘要隨著信息化進(jìn)程的日益深入和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,計(jì)算機(jī)在給人們的生活和工作方式帶來(lái)巨大便利的同時(shí)也帶來(lái)了計(jì)算機(jī)病毒,因此產(chǎn)生了日益嚴(yán)峻的信息安全問(wèn)題。雖然在商業(yè)應(yīng)用中已經(jīng)有很多種類(lèi)的殺毒軟件,但一般都是傳統(tǒng)的基于標(biāo)簽的惡意代碼檢測(cè)技術(shù),這種檢測(cè)方法誤報(bào)率低漏報(bào)率高,不能檢測(cè)新型惡意代碼,這個(gè)特點(diǎn)造成了惡意代碼檢測(cè)技術(shù)存在著巨大的漏洞,使得殺毒
3、軟件在面對(duì)新型病毒時(shí)失去了它應(yīng)有的價(jià)值,造成計(jì)算機(jī)用戶(hù)的安全隨時(shí)受著威脅?;诋惓z測(cè)的方法能夠檢測(cè)新型的惡意代碼,因而大量研究者對(duì)惡意代碼檢測(cè)研究一般采用基于異常檢測(cè)的方法。本文基于機(jī)器學(xué)習(xí)和正則化方法對(duì)惡意代碼檢測(cè)的若干關(guān)鍵問(wèn)題進(jìn)行研究,著眼于惡意代碼檢測(cè)的過(guò)程,對(duì)其中的兩個(gè)重要環(huán)節(jié)即惡意代碼特征表示方法和惡意代碼特征選擇方法進(jìn)行了深入研究。全文主要研究工作從以下四個(gè)方面展開(kāi):(1)對(duì)惡意代碼特征表示方法進(jìn)行研究本文根據(jù)惡意代碼檢測(cè)過(guò)程中惡意代碼特征表示原理和特征表示粒度的不同,對(duì)現(xiàn)有的惡意代碼特征表示方法
4、進(jìn)行了深入研究,對(duì)現(xiàn)有的各種表示方法進(jìn)行回顧、梳理并將其分為基于n元序列的特征表示方法,基于OPCode的特征表示方法,基于基本塊的特征表示方法,基于行為的特征表示方法。(2)對(duì)惡意代碼特征選擇方法進(jìn)行研究本文對(duì)惡意代碼特征選擇方法進(jìn)行了系統(tǒng)的研究,特征選擇是惡意代碼檢測(cè)的第二個(gè)階段,良好的特征選擇方法可以有效降低樣本數(shù)據(jù)的維數(shù)提高分類(lèi)器的分類(lèi)效率和正確率,本文對(duì)現(xiàn)有的部分特征選擇方法包括基于有監(jiān)督的信息增益(InformationGain,IG)方法、開(kāi)方擬合檢驗(yàn)方法(Z2,cm)和無(wú)監(jiān)督的文檔頻率(Docu
5、mentFrequency,DF)方法、基于熵的選擇(Entropy—Basedranking)方法、單詞貢獻(xiàn)度(TermContribution,TC)方法,F(xiàn)isher分值(F.score)方法進(jìn)行系統(tǒng)的總結(jié)梳理。(3)對(duì)惡意代碼特征選擇的各種方法性能進(jìn)行對(duì)比分析由于使用不同的特征選擇方法對(duì)惡意代碼檢測(cè)的性能有不同的影響,本文使用常用的基于N元序列的n—gram特征表示方法提取樣本的特征,然后使用常用的惡意代碼特征選擇方法進(jìn)行樣本的特征選擇,用選取的特征進(jìn)行分類(lèi)器的訓(xùn)練,最后通過(guò)仿真實(shí)驗(yàn)對(duì)各種特征選擇方法選
6、取的特征對(duì)最終惡意代碼分類(lèi)器的分類(lèi)性能貢獻(xiàn)大小進(jìn)行分析。(4、)提出基于正則化的單類(lèi)支持向量機(jī)傳統(tǒng)的單類(lèi)分類(lèi)方法基于無(wú)監(jiān)督學(xué)習(xí)理論,缺乏對(duì)惡意代碼檢測(cè)領(lǐng)域中存在的未標(biāo)號(hào)的樣本的使用,本文在傳統(tǒng)單類(lèi)支持向量機(jī)的基礎(chǔ)上,根據(jù)正則化在無(wú)標(biāo)號(hào)樣本上的兩類(lèi)支持向量機(jī)和傳統(tǒng)單類(lèi)支持向量機(jī)的差異,構(gòu)建了一個(gè)能夠充分利用無(wú)標(biāo)號(hào)樣本的單類(lèi)分類(lèi)學(xué)習(xí)器,從而既保證了原先單類(lèi)支持向量機(jī)的分類(lèi)性能,又充分利用無(wú)標(biāo)號(hào)樣本提高其性能。由于該問(wèn)題是一個(gè)混合整數(shù)優(yōu)化問(wèn)題,復(fù)雜度很高,又提出了一個(gè)近似算法進(jìn)行快速求解。并通過(guò)在模擬數(shù)據(jù)集和惡意代碼
7、數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了該分類(lèi)器的性能。關(guān)鍵詞:5。凹IE思-e,-代碼檢測(cè),特征表示,特征選擇,正則化方法,單類(lèi)分類(lèi)AbstractWiththedeeppenetrationofinformationandthefastdevelopmentoftheIntemet,thecomputerhasundoubtedlybroughtgreatconveniencetopeople’Slifeandchangedourworkingways.However,thecomputerhasalsobroughtcomp
8、utervirus,whichcausestheincreasinglyseriousinformationsecurityproblem.Althoughmanykindsofanti-virussoftwarehavealreadybeenadoptedincommercialuse,butmostofthemaretraditionalmaliciouscodedetection