基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)

基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)

ID:36801473

大小:2.22 MB

頁數(shù):63頁

時間:2019-05-15

基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)_第1頁
基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)_第2頁
基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)_第3頁
基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)_第4頁
基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)_第5頁
資源描述:

《基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、北京郵電大學(xué)基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究與實現(xiàn)摘要基于內(nèi)容的垃圾郵件過濾技術(shù)是Intemet安全技術(shù)研究的一個重點問題。將機(jī)器學(xué)習(xí)的相關(guān)方法應(yīng)用于垃圾郵件的判定是進(jìn)行大量垃圾郵件處理的有效方法。本文針對電子郵件的特點,通過分析傳統(tǒng)郵件過濾技術(shù)的不足之處,在對大量垃圾郵件進(jìn)行統(tǒng)計分析的基礎(chǔ)之上,基于信息融合準(zhǔn)則對郵件過濾技術(shù)進(jìn)行了研究。本文主要包括以下幾個方面的內(nèi)容:1、綜述垃圾郵件過濾問題的研究現(xiàn)狀,包括垃圾郵件的定義、危害以及當(dāng)前主要垃圾郵件過濾技術(shù):在總結(jié)比較常

2、用的特征提取方法及過濾算法的基礎(chǔ)上,提出了一種利用期望交叉熵(CE)代替詞頻逆文檔頻率(TFIDF)算法中IDF函數(shù)進(jìn)行分類的詞頻交叉熵(TFCE)算法。2、在深刻理解信息融合技術(shù)的基礎(chǔ)上,通過理論分析,針對傳統(tǒng)垃圾郵件判決采用單一準(zhǔn)則的缺陷,重點研究了基于三角膜算子的垃圾郵件融合判決準(zhǔn)則。其后詳細(xì)闡述了該準(zhǔn)則的原理和評價結(jié)果以及具體實現(xiàn)過程,包括體系結(jié)構(gòu)、功能模型和組織模型、郵件過濾的流程和垃圾郵件反饋模塊等問題。3、利用實驗檢驗了算法的有效性。仿真實驗主要分為兩部分:一是比較了郵件過濾系統(tǒng)中各種基于評估函數(shù)的特

3、征提取方法,如文檔頻率(DF)、互信息(MI)、信息增益(IG)、期望交叉熵(CE)、詞頻逆文檔頻率(TFIDF)和本文提出的新的特征提取算法詞頻交叉熵(TFCE)的優(yōu)缺點和特征提取精度;二是將基于三角模算子的信息融合判決準(zhǔn)則與基于詞頻或文檔頻率的采用單一準(zhǔn)則的判決方法進(jìn)行了比較。論文最后對基于詞頻交叉熵(TFCE)算法和信息融合準(zhǔn)則的郵件過濾系統(tǒng)提出了進(jìn)一步完善、改進(jìn)的意見,從而得出最佳決策,有效降低郵件漏判、錯判的概率,為郵件過濾技術(shù)的發(fā)展提供了一個新的探索途徑。關(guān)鍵詞:垃圾郵件;特征提??;詞頻交叉熵;信息融合

4、;三角模北京郵電人學(xué)基于信息融合準(zhǔn)則的郵件過濾系統(tǒng)的研究。j實現(xiàn)E-憫LF11月ERINGSYSTEMBASEDONINFORM嗡TIONFUSIONCRITERIONABSTRACTNowadaysemailisoneofthemostcommonnetworkapplicationsandhasbecomethemostimportantcommunicationmethod.Content—basedspamfilteringisanimportantissueinIntemetsecuritytechnol

5、ogy.Applicationofmachinelearningapproachessuchastextcategorizationtospamdeterminationisanefficientwayfordealingwithplentyofspam.Thispaperaimsatcharacteristicsofe-mailbyanalyzingtheinadequacyoftraditionaltechnologyinfilteringspamonthebasisofalargenumberofstatis

6、ticalanalyses.Weputemphasisoncomparingtheadvantages,disadvantagesandscopeofapplicationsofvariousfeatureselectionmethods,andachieveaCrossEntropy(CE)toreplaceIDFfunctionofTermFrequencyInverseDocumentFrequency(TFIDF)algorithm,namedTermFrequencyCrossEntropy(TFCE).

7、Anewjudgmenthasbeenproposedwhichisbasedontrianglemodulefusionatthesametimetofurtherimproveaccuracyoffeatureselectionandeffectivelyreducestheprobabilityofmailmisjudgmentandlostofjudgment.Thisthesismainlyincludesthefollowingparts:Summarizethestateofspamfiltering

8、whichincludethedefinitionofspam,dangerandfilteringtechniques;Generalizecommonapproachesoffeaturepruning,anti-spamfilterandmailcorpora.Alsoweemphasizeonfeatureselectionmethodsandfil

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。