資源描述:
《基于最大熵模型網(wǎng)頁分類》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、摘要隨著wWw的迅猛發(fā)展,對網(wǎng)頁進行分類成為處理和組織大量文檔數(shù)據(jù)的關鍵技術。由于最大熵模型可以綜合觀察到的各種相關或不相關的概率知識,對許多問題的處理都可以達到較好的結果。研究者通過實驗比較和分析了基于最大熵模型的分類器的分類性能,并且分別對其進行了特征優(yōu)化、預分類處理以及平滑處理的比較,結果發(fā)現(xiàn)預分類處理對分類的幫助是很明顯的,其余兩種操作也在一定程度上提高了分類精度。本文針對最大熵的優(yōu)點做了以下研究:(1)對網(wǎng)頁結構進行分析,根據(jù)其連接程度分為C.Hub頁面和內容頁面兩種,以便進一步研究時,可根據(jù)不同
2、的特點采取不同的研究方法,旨在提高網(wǎng)頁的分類精度。(2)對網(wǎng)頁進行了預處理,包括分詞、建造類別詞庫等。通過對詞專指度的計算,給出能夠確定文章類別的關鍵詞入庫。(3)基于最大熵模型,本文用GIS算法求得特征函數(shù),并用傳統(tǒng)的特征歸納方法,通過計算兩個概率分布之間的距離,分析引入某一特征后的信息增益,對每一特征進行篩選,選出有用的特征組成一個特征優(yōu)化集合。(4)分別對結構分析得到的兩種頁面設計特征函數(shù)。對于內容頁面,由于其形式與純文本文檔非常接近,我們用詞一類別作為其特征,采用詞頻作為特征值;對于C.Hub頁面,
3、由于有較高的文字鏈接比,我們主要對HTML格式進行分析。首先通過分析HTML語言提取出一個優(yōu)化的HTML標記集合作為研究對象,然后引入Salton提出的文本表示方法,并加以改進,用以表示網(wǎng)頁內容,把詞本身的特征與其所在位置相結合,計算出特征值t;,生成特征函數(shù)。試驗結果表明基于最大熵的網(wǎng)頁分類方法是行之有效的。它不但能得到最一致的分布,而且保證了網(wǎng)頁分類的查準率和查全率。而且它比其他方法較少依賴語言學知識、預處理或語義數(shù)據(jù)庫。不失為一種理想的網(wǎng)頁分類方法。關鍵詞:網(wǎng)頁分類;最大熵模型;類別詞ABSTRACT
4、WiththerapidprogressofWbridWideW如.Classifyingwebpagesisbecomingapwotaltechnologyinprocessingandorganlzmgamassofdocumentsanddata.Asitcarlhelpobservea11kindsofrelativeandirrelativeprobabilityknowledge,MaximumEntropyModelsgivecomparativelybettersolutionstoman
5、yproblems.ResearchersthroughmanyexperimentscompareandanalyzetheperformanceofthesorterbasedonMaximumEntropyModel.TheeSSaywillmakeresearchontheadvantageofMaximumEntropyModel:(1)Byanalyzingtheirstructure,accordingtotheconnection,thewebpageswillbedividedintotw
6、okinds:C.HubWebpageandContentWbbpageSOthatthefurtherresearchcantakeadvantageoftheirdifferentfeaturesandimprovetheclassilyingprecision.(2)Thepre—processtothewebpageincludessortingwords,establishingsortingvocabulary,ete.computingtheparticularityofwordCanaddi
7、ntothevocabularythekeywordsdecidingthewebpage’Sfeatures.(3)BasedontheMaximumEntropyModel,theessaymakesuseofGISalgorithmtogetthefeaturefunction,andthenbytraditionalfeatures.inductivemethodsofgettingthedistancebetweentwoprobabilities,analyzabilitybringsinfor
8、mationgainwithsomefeaturetoscreenouttheusefulcharacteristicsandestablishflcharacteristic-optimizedcollection.(41Analyzingthestructuretogetthefeaturesoftwowebpagedesign.ThestructureofContentwebpageiSverysimila