資源描述:
《安卓惡意代碼檢測技術的研究與實現》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、中文圖書分類號:TP391密級:公開UDC:004學校代碼:10005碩士專業(yè)學位論文PROFESSIONALMASTERDISSERTATION論文題目:安卓惡意代碼檢測技術的研究與實現論文作者:李振國專業(yè)類別/領域:計算機技術指導教師:王全民副教授論文提交日期:2017年5月UDC:004學校代碼:10005中文圖書分類號:TP391學號:S201407103密級:公開北京工業(yè)大學碩士專業(yè)學位論文(全日制)題目:安卓惡意代碼檢測技術的研究與實現英文題目:THERESEARCHANDIMPLEMENTATIONOFANDROID'S
2、MALICIOUSCODEDETECTIONTECHNOLOGY論文作者:李振國專業(yè)類別/領域:計算機技術研究方向:信息安全申請學位:工程碩士專業(yè)學位指導教師:王全民副教授所在單位:信息學部答辯日期:2017年5月授予學位單位:北京工業(yè)大學獨創(chuàng)性聲明本人聲明所呈交的論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經發(fā)表或撰寫過的研究成果,也不包含為獲得北京工業(yè)大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明
3、確的說明并表示了謝意。簽名:李振國日期:2017年5月18日關于論文使用授權的說明本人完全了解北京工業(yè)大學有關保留、使用學位論文的規(guī)定,即:學校有權保留送交論文的復印件,允許論文被查閱和借閱;學??梢怨颊撐牡娜炕虿糠謨热?,可以采用影印、縮印或其他復制手段保存論文。(保密的論文在解密后應遵守此規(guī)定)簽名:李振國日期:2017年5月18日導師簽名:王全民日期:2017年5月18日摘要摘要安卓系統使用量的增長使得各種新型惡意代碼不斷出現,這些惡意代碼通常在未經用戶允許的情況下運行在用戶終端的后臺。編寫人員利用這些惡意代碼來竊取私人信息或
4、投放廣告,嚴重的侵犯了用戶合法權益。越來越多的研究人員開始投身于基于安卓平臺的惡意代碼檢測領域,并且把發(fā)現的惡意代碼公布在互聯網公共平臺,起到了監(jiān)督的作用。檢測惡意代碼的方法主要分為靜態(tài)檢測和動態(tài)檢測。靜態(tài)檢測主要是分析源代碼的結構和配置文件的信息等靜態(tài)特征,然后再與公共平臺上已經公布的惡意代碼進行匹配,如果匹配度極高則判斷為是惡意的。靜態(tài)檢測方法是非常準確的,這種方法不執(zhí)行應用程序,能夠達到快速的分類,但是不能檢測到未知的的新型惡意代碼;動態(tài)檢測主要是在源代碼中加入設計好的代碼段,通常是放在接口的入口或出口,通過重新編譯后再執(zhí)行來跟
5、蹤應用的行為。根據程序是否輸出信息來查看接口是否被調用,而且還可以利用程序的順序執(zhí)行來分析程序的調用序列,然后判斷其邏輯,看是否有越權和調用一些與本身應用功能無關的接口等操作。但是也存在著缺點:首先,手動插入代碼工作量較大,需要對源代碼非常熟悉并且難以模擬惡意代碼被激活的真實環(huán)境。其次,安卓系統更新較快,不同的版本需要插入代碼段的時間和位置也就不一樣,這樣就增加了動態(tài)分析的復雜性。最近,分類算法被成功地用于檢測惡意代碼,其中提取特征的重要性決定了分類結果的好壞。本論文面向基于安卓平臺的惡意代碼檢測,提出了一種基于安卓虛擬機(Dalvi
6、k)指令操作符(OpCode)特征的分類算法的檢測模型。同時也改進了自然語言處理領域中的N元模型(N-Gram),使用N個OpCode組成一個詞語來表示特征,并且利用國內開源的并行深度學習框架(Paddle)進行特征訓練,加快了特征訓練的速度,不但節(jié)省了時間,而且提高了準確率。本文主要工作內容具體如下:(1)通過編寫腳本批量反編譯安卓應用,匯總每個應用的Dalvik指令,提取其中的OpCode,然后對安卓應用的OpCode進行分類和描述,同時改進N-Gram模型,為了獲得一個比較好的N值,分別設置N=1,2,3,4,5,6,通過實驗對
7、比來選擇最合適的N值,從而為后面的實驗做好鋪墊。(2)用OpCode序列的詞頻(TF)和詞頻逆文檔頻率(TF-IDF)分別作為特征的值來進行實驗,從而選擇一種較好的特征表示方法。本論文通過實驗證明兩者表示效果差別很小,最終選擇TF方法,因為隨著訓練集合的擴大TF-IDF會帶來額外的運算。(3)分別選擇決策樹、隨機森林和神經網絡作為檢測模型的分類器,并且I北京工業(yè)大學工程碩士專業(yè)學位論文在實現算法的過程中對其進行改進。決策樹:用信息增益比作為決策樹的特征選擇方法,并且將已生成的樹進行簡化,防止出現過擬合現象;隨機森林:實現多個決策樹,通
8、過多輪實驗的對比設置決策樹的個數以及隨機森林中各個決策樹的高度;神經網絡:基于Paddle框架,實現自動編碼器(AutoEncode)來對特征進行重構,用盡可能少的信息來表示OpCode特征,建立多層網絡,加快了模型訓練