基于最大熵模型網(wǎng)頁分類

基于最大熵模型網(wǎng)頁分類

ID:34809699

大?。?57.27 KB

頁數(shù):35頁

時間:2019-03-11

基于最大熵模型網(wǎng)頁分類_第1頁
基于最大熵模型網(wǎng)頁分類_第2頁
基于最大熵模型網(wǎng)頁分類_第3頁
基于最大熵模型網(wǎng)頁分類_第4頁
基于最大熵模型網(wǎng)頁分類_第5頁
資源描述:

《基于最大熵模型網(wǎng)頁分類》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫

1、摘要隨著wWw的迅猛發(fā)展,對網(wǎng)頁進行分類成為處理和組織大量文檔數(shù)據(jù)的關鍵技術。由于最大熵模型可以綜合觀察到的各種相關或不相關的概率知識,對許多問題的處理都可以達到較好的結果。研究者通過實驗比較和分析了基于最大熵模型的分類器的分類性能,并且分別對其進行了特征優(yōu)化、預分類處理以及平滑處理的比較,結果發(fā)現(xiàn)預分類處理對分類的幫助是很明顯的,其余兩種操作也在一定程度上提高了分類精度。本文針對最大熵的優(yōu)點做了以下研究:(1)對網(wǎng)頁結構進行分析,根據(jù)其連接程度分為C.Hub頁面和內容頁面兩種,以便進一步研究時,可根據(jù)不同

2、的特點采取不同的研究方法,旨在提高網(wǎng)頁的分類精度。(2)對網(wǎng)頁進行了預處理,包括分詞、建造類別詞庫等。通過對詞專指度的計算,給出能夠確定文章類別的關鍵詞入庫。(3)基于最大熵模型,本文用GIS算法求得特征函數(shù),并用傳統(tǒng)的特征歸納方法,通過計算兩個概率分布之間的距離,分析引入某一特征后的信息增益,對每一特征進行篩選,選出有用的特征組成一個特征優(yōu)化集合。(4)分別對結構分析得到的兩種頁面設計特征函數(shù)。對于內容頁面,由于其形式與純文本文檔非常接近,我們用詞一類別作為其特征,采用詞頻作為特征值;對于C.Hub頁面,

3、由于有較高的文字鏈接比,我們主要對HTML格式進行分析。首先通過分析HTML語言提取出一個優(yōu)化的HTML標記集合作為研究對象,然后引入Salton提出的文本表示方法,并加以改進,用以表示網(wǎng)頁內容,把詞本身的特征與其所在位置相結合,計算出特征值t;,生成特征函數(shù)。試驗結果表明基于最大熵的網(wǎng)頁分類方法是行之有效的。它不但能得到最一致的分布,而且保證了網(wǎng)頁分類的查準率和查全率。而且它比其他方法較少依賴語言學知識、預處理或語義數(shù)據(jù)庫。不失為一種理想的網(wǎng)頁分類方法。關鍵詞:網(wǎng)頁分類;最大熵模型;類別詞ABSTRACT

4、WiththerapidprogressofWbridWideW如.Classifyingwebpagesisbecomingapwotaltechnologyinprocessingandorganlzmgamassofdocumentsanddata.Asitcarlhelpobservea11kindsofrelativeandirrelativeprobabilityknowledge,MaximumEntropyModelsgivecomparativelybettersolutionstoman

5、yproblems.ResearchersthroughmanyexperimentscompareandanalyzetheperformanceofthesorterbasedonMaximumEntropyModel.TheeSSaywillmakeresearchontheadvantageofMaximumEntropyModel:(1)Byanalyzingtheirstructure,accordingtotheconnection,thewebpageswillbedividedintotw

6、okinds:C.HubWebpageandContentWbbpageSOthatthefurtherresearchcantakeadvantageoftheirdifferentfeaturesandimprovetheclassilyingprecision.(2)Thepre—processtothewebpageincludessortingwords,establishingsortingvocabulary,ete.computingtheparticularityofwordCanaddi

7、ntothevocabularythekeywordsdecidingthewebpage’Sfeatures.(3)BasedontheMaximumEntropyModel,theessaymakesuseofGISalgorithmtogetthefeaturefunction,andthenbytraditionalfeatures.inductivemethodsofgettingthedistancebetweentwoprobabilities,analyzabilitybringsinfor

8、mationgainwithsomefeaturetoscreenouttheusefulcharacteristicsandestablishflcharacteristic-optimizedcollection.(41Analyzingthestructuretogetthefeaturesoftwowebpagedesign.ThestructureofContentwebpageiSverysimila

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。