資源描述:
《惡意代碼論文:惡意代碼分類的研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、惡意代碼論文:惡意代碼分類的研究與實現(xiàn)【中文摘要】快速、準確地對惡意代碼進行分類是防范惡意代碼的關(guān)鍵之一,能夠為檢測、控制和清除惡意代碼提供重要依據(jù)。目前,惡意代碼的分類問題已經(jīng)成為安全領域的研究熱點之一,本文對此進行重點研究?,F(xiàn)有的惡意代碼分類方法存在不足。一是分類速度慢,無法及時處理反惡意程序公司日常所面臨的海量樣本,投入實際應用較少。二是擴展性差,一些方法利用反病毒軟件對訓練集進行分類,作為基準類別,導致這些方法無法識別未經(jīng)過訓練的類別。三是準確性低,其主要原因在于提取出的特征不足以反映樣本的實際行
2、為,或者所采用的分析技術(shù)自身的局限性。本文在深入分析惡意代碼現(xiàn)有分析技術(shù)的基礎上,通過對大量惡意代碼進行分析,提出以樣本運行行為序列為樣本特征,構(gòu)建惡意代碼行為知識庫,設計開發(fā)了惡意代碼分類系統(tǒng),并給出實驗結(jié)果。主要完成了以下工作:1、惡意代碼收集與行為分析,在此基礎上設計了惡意代碼自動行為分析系統(tǒng)。基于開源軟件ZeroWine,設計了樣本自動行為分析系統(tǒng),生成樣本行為分析報告??紤]到該軟件在遇到部分加殼樣本時,可能會出現(xiàn)分析異常的問題,在進行行為分析前,對樣本進行了相應的脫殼和解密操作。2、特征提取和構(gòu)
3、建行為知識庫。對樣本集進行分析得到運行行為報告,提出以樣本行為序列作為其特征。將所得到的樣本行為信息添加到數(shù)據(jù)庫,構(gòu)建惡意代碼行為知識庫。3、基于聚類算法構(gòu)建惡意代碼的基準類別及其家族的原型特征,據(jù)此對惡意代碼進行分類。聚類是指根據(jù)行為相似度確定惡意代碼新的類別;而分類是指將惡意代碼歸入已知類別中。首先,對行為特征進行向量空間映射操作,將其映射到高維特征空間;其次,利用聚類算法生成基準類別,并構(gòu)建家族原型特征,稱之為基因碼,即存在于惡意代碼及其變種中的共同之處和普遍特征,用于標識惡意程序家族的信息;最后,
4、基于家族基因碼進行分類。4、引入增量分析方法,實現(xiàn)對家族基因碼數(shù)據(jù)庫進行更新,以增強系統(tǒng)的擴展性。某個時期生成的基因碼數(shù)據(jù)庫不可能適用太長時間,需要定期更新。傳統(tǒng)的做法是將新增進來的訓練樣本集和以往學習過的部分或全部樣本集中起來重新進行訓練,產(chǎn)生新的基因碼數(shù)據(jù)庫。為避免重復學習和時空開銷問題,引入增量分析方法,即對新樣本進行分類后,對于未歸類的新樣本進行聚類分析,提取基因碼并更新數(shù)據(jù)庫,進而對這些樣本進行分類。5、惡意代碼分類系統(tǒng)的設計與實現(xiàn)。針對惡意代碼家族的代碼和行為具有很高相似性的特點,對相關(guān)的關(guān)鍵
5、技術(shù)進行研究,設計并實現(xiàn)了惡意代碼分類系統(tǒng)。6、對系統(tǒng)進行了準確性測試和算法對比測試。測試結(jié)果表明,該系統(tǒng)具有良好的準確性,達到預期結(jié)果?!居⑽恼縌uickandaccurateclassificationofmaliciouscodeisakeytopreventmalware,foritisanimportantbasisfordetecting,controllingandremovingmaliciouscode.Atpresent,theclassificationofmaliciousco
6、dehasbecomeoneofhottopicsinsecurityfield.Thispaperfocusesontheclassificationofmaliciouscode.Therearesomedefectsexistinginclassificationmethodsofmaliciouscode.Firstly,itistooslowtodealwiththeaboundsizeofmalwaresetsthatanti-malwarecompaniesareconfrontedwith
7、.Andlittlemethodshavebeenputintopracticalapplication.Secondly,thescalingabilityisnotgood.Someapproachesuseanti-virussoftwaretotrainthesamplessetasthebenchmarkcategory,resultingtosuchmethodscannotidentifyuntrainedcategory.Thethirdofdefectsisimprecise,eithe
8、rbecauseitdoesnotcaptureasample’sbehaviorwellenoughorbecausethelimitationsoftheanalysistechnologyitself.Impreciseinthiscontexteithermeansputtingsamplesofdifferenttypesintothesamegrouporfailingtorecognizesimilarmalwa