粗糙集理論在文本分類算法中的應(yīng)用

ID：7826575

大?。?1.53 KB

頁數(shù)：3頁

時間：2018-02-27

資源描述：

《粗糙集理論在文本分類算法中的應(yīng)用》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、王珍珍：粗糙集理論在文本分類算法中的應(yīng)用粗糙集理論在文本分類算法中的應(yīng)用王珍珍(棗莊學(xué)院，棗莊277160)摘要：文本分類常采用的算法一般是基于向量比較的分類技術(shù)。文本中關(guān)鍵字較多，形成的特征向量維數(shù)相當(dāng)高，因而會導(dǎo)致分類比較處理的運算量太大，而降低維數(shù)后又會不可避免地丟失有用信息。將粗糙集理論應(yīng)用于分類處理過程中可有效地解決此問題。關(guān)鍵詞：文本分類；粗糙集；約簡；文本分類算法中圖分類號：TP301文獻(xiàn)標(biāo)識碼：A文章編號：1673—1980(2009)04—0166—033王珍珍：粗糙集理論在文本分類算法中的應(yīng)用文本分類(TextCategori

2、zation)是中文信息處理的一個重要研究領(lǐng)域．其目標(biāo)是在分析文本內(nèi)容的基礎(chǔ)上，給文本分配一個或多個比較合適的類別，從而提高文本檢索、存儲等應(yīng)用的處理效率。目前已經(jīng)有許多文本分類方法應(yīng)用于該領(lǐng)域．如支持向量機(jī)方法(SVM)，K近鄰方法(KNN)、樸素貝葉斯方法(NaiveBayes)、決策樹方法(DecisionTree)等等。在常用的文本分類算法處理過程中．每個文本都用維數(shù)特別高的向量來描述．其向量維數(shù)通常高達(dá)上萬維，即使處理能力最強(qiáng)的計算機(jī)也難以處理。很多系統(tǒng)在頻率統(tǒng)計的基礎(chǔ)上使用了閾值過濾降低向量的維數(shù)，卻不可避免地丟失一些有用的信息，特別

3、是對于分類很重要的低頻詞，最終影響到分類的準(zhǔn)確度。如果將粗糙集理論應(yīng)用在分類處理過程中，即可有效地解決此問題。1粗糙集理論應(yīng)用于文本分類的可行性分析粗糙集理論(RoughSetsorRS)是由波蘭華沙理工大學(xué)教授Pawlak于1982年提出。用于研究不完整數(shù)據(jù)、不精確知識的表達(dá)、學(xué)習(xí)、歸納等方法。該理論以對觀察和測量所得的數(shù)據(jù)進(jìn)行分類的能力為基礎(chǔ)，將知識理解為對數(shù)據(jù)的劃分，這種劃分在特定空間上由等價關(guān)系構(gòu)成。與其他方法相比，粗糙集理論用于分類有以下優(yōu)勢：(1)粗糙集理論無需提供除問題所需處理的數(shù)據(jù)集合之外的任何先驗信息；(2)它包括了知識的一種形

4、式模型，將知識定義為不可區(qū)分關(guān)系的一個族集，使得知識有了清晰的數(shù)據(jù)意義。并且可用數(shù)學(xué)方法分析處理；(3)它能夠獲得分類所需的最小特征屬性集，可以在不影響分類精度的條件下降低特征向量的維數(shù)；(4)它可以得到最簡約的顯式表達(dá)的分類規(guī)則，而其他方法無法得到顯式規(guī)則，如樸素貝葉斯方法和K近鄰方法，有的得到的規(guī)則含有大量的冗余條件，如決策樹方法；(5)粗糙集理論和模糊邏輯、神經(jīng)網(wǎng)絡(luò)、概率推理、信度網(wǎng)絡(luò)、鏈接計算、遺傳算法一起形成了軟計算方法的基礎(chǔ)。為問題的處理提供了成本較低的解決方案。將粗糙集理論應(yīng)用于文本分類模型，主要利用粗糙集對知識的等價劃分思想，保持

5、了文本的概念信息。首先從已經(jīng)分好類的文本集中提取區(qū)別文本類別的最小關(guān)鍵詞向量作為規(guī)則的前提條件。文件所屬的類別用作規(guī)則決策，構(gòu)成分類決策表；再利用知識約簡理論提出文本分類規(guī)則。利用這些規(guī)則對新文本進(jìn)行分類驗證；最后輸出符合分類要求的規(guī)則。這樣的分類規(guī)則容易理解，可使知識系統(tǒng)的處理過程簡單化。2應(yīng)用粗糙集后的分類模型應(yīng)用了粗糙集理論后的文本分類模型主要包含訓(xùn)練模塊、測試模塊兩部分。基本工作原理如下：首先利用訓(xùn)練模塊生成一個分類器．然后選取一部分分好類的文本對分類器進(jìn)行分類效果測試，如果分類的準(zhǔn)確性不能滿足要求，則重新回到訓(xùn)練模塊，如此反復(fù)，直到分類

6、準(zhǔn)確性達(dá)到要求才能輸出最后的分類器，而此時這個經(jīng)過訓(xùn)練的分類器才能對新文本信息進(jìn)行分類。引入粗糙集理論的文本分類器工作過程如圖1所示。(1)從語料庫中選出訓(xùn)練文本和測試文本，每篇樣本由人工預(yù)先分類，并標(biāo)上唯一的類別標(biāo)志。(2)對所有訓(xùn)練文本進(jìn)行預(yù)處理，即首先進(jìn)行分詞處理，將文檔變成無序、分散的詞條集合，然后將集合中存在的一些頻率很高但無意義的虛詞和功能詞，如“這、是、了、不僅、但是”等詞去除，合并同義詞、近義詞，最后進(jìn)行詞頻統(tǒng)3王珍珍：粗糙集理論在文本分類算法中的應(yīng)用計，形成詞頻矩陣如表1所示。(3)接著提取并表示文本特征。上一步生成的矩陣特征維

7、數(shù)仍然很高，因此需要構(gòu)造一個評價函數(shù)，選取預(yù)定數(shù)目的最佳特征作為結(jié)果特征子集。常用特征權(quán)重算法考慮特征項的頻率信息TF和反文檔頻率IDF，即TF—IDF公式：其中：表示詞條t在文檔D中出現(xiàn)的頻率；』v表示全部樣本文檔的總數(shù)：nk表示包含詞條tk的文檔數(shù)。此外還需要考慮詞條的位置信息。比如文章標(biāo)題、副標(biāo)題、關(guān)鍵字表中出現(xiàn)的詞條，應(yīng)全部保留下來。(4)離散化特征權(quán)值。在文本的向量空間模型中，權(quán)重是連續(xù)型數(shù)據(jù)，而粗糙集只能處理離散數(shù)據(jù)，必須先對特征權(quán)值進(jìn)行離散化處理。離散化還可以減少屬性值的個數(shù)。提高所得到規(guī)則的適應(yīng)度。(5)構(gòu)造決策信息表。以文本中提

8、取的特征子集作為決策表的條件屬性集，文本所屬的類別集合作為決策屬性集，表中的值是離散化后屬性值的表示符。(6)決策表的屬性約簡。原始決策

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 / 3



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

粗糙集理論在文本分類算法中的應(yīng)用

粗糙集理論在文本分類算法中的應(yīng)用

相關(guān)文章

相關(guān)標(biāo)簽