資源描述:
《粗糙集理論在文本分類算法中的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、王珍珍:粗糙集理論在文本分類算法中的應(yīng)用粗糙集理論在文本分類算法中的應(yīng)用王珍珍(棗莊學(xué)院,棗莊277160)摘要:文本分類常采用的算法一般是基于向量比較的分類技術(shù)。文本中關(guān)鍵字較多,形成的特征向量維數(shù)相當(dāng)高,因而會導(dǎo)致分類比較處理的運算量太大,而降低維數(shù)后又會不可避免地丟失有用信息。將粗糙集理論應(yīng)用于分類處理過程中可有效地解決此問題。關(guān)鍵詞:文本分類;粗糙集;約簡;文本分類算法中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A文章編號:1673—1980(2009)04—0166—033王珍珍:粗糙集理論在文本分類算法中的應(yīng)用文本分類(TextCategori
2、zation)是中文信息處理的一個重要研究領(lǐng)域.其目標(biāo)是在分析文本內(nèi)容的基礎(chǔ)上,給文本分配一個或多個比較合適的類別,從而提高文本檢索、存儲等應(yīng)用的處理效率。目前已經(jīng)有許多文本分類方法應(yīng)用于該領(lǐng)域.如支持向量機(jī)方法(SVM),K近鄰方法(KNN)、樸素貝葉斯方法(NaiveBayes)、決策樹方法(DecisionTree)等等。在常用的文本分類算法處理過程中.每個文本都用維數(shù)特別高的向量來描述.其向量維數(shù)通常高達(dá)上萬維,即使處理能力最強(qiáng)的計算機(jī)也難以處理。很多系統(tǒng)在頻率統(tǒng)計的基礎(chǔ)上使用了閾值過濾降低向量的維數(shù),卻不可避免地丟失一些有用的信息,特別
3、是對于分類很重要的低頻詞,最終影響到分類的準(zhǔn)確度。如果將粗糙集理論應(yīng)用在分類處理過程中,即可有效地解決此問題。1粗糙集理論應(yīng)用于文本分類的可行性分析粗糙集理論(RoughSetsorRS)是由波蘭華沙理工大學(xué)教授Pawlak于1982年提出。用于研究不完整數(shù)據(jù)、不精確知識的表達(dá)、學(xué)習(xí)、歸納等方法。該理論以對觀察和測量所得的數(shù)據(jù)進(jìn)行分類的能力為基礎(chǔ),將知識理解為對數(shù)據(jù)的劃分,這種劃分在特定空間上由等價關(guān)系構(gòu)成。與其他方法相比,粗糙集理論用于分類有以下優(yōu)勢:(1)粗糙集理論無需提供除問題所需處理的數(shù)據(jù)集合之外的任何先驗信息;(2)它包括了知識的一種形
4、式模型,將知識定義為不可區(qū)分關(guān)系的一個族集,使得知識有了清晰的數(shù)據(jù)意義。并且可用數(shù)學(xué)方法分析處理;(3)它能夠獲得分類所需的最小特征屬性集,可以在不影響分類精度的條件下降低特征向量的維數(shù);(4)它可以得到最簡約的顯式表達(dá)的分類規(guī)則,而其他方法無法得到顯式規(guī)則,如樸素貝葉斯方法和K近鄰方法,有的得到的規(guī)則含有大量的冗余條件,如決策樹方法;(5)粗糙集理論和模糊邏輯、神經(jīng)網(wǎng)絡(luò)、概率推理、信度網(wǎng)絡(luò)、鏈接計算、遺傳算法一起形成了軟計算方法的基礎(chǔ)。為問題的處理提供了成本較低的解決方案。將粗糙集理論應(yīng)用于文本分類模型,主要利用粗糙集對知識的等價劃分思想,保持
5、了文本的概念信息。首先從已經(jīng)分好類的文本集中提取區(qū)別文本類別的最小關(guān)鍵詞向量作為規(guī)則的前提條件。文件所屬的類別用作規(guī)則決策,構(gòu)成分類決策表;再利用知識約簡理論提出文本分類規(guī)則。利用這些規(guī)則對新文本進(jìn)行分類驗證;最后輸出符合分類要求的規(guī)則。這樣的分類規(guī)則容易理解,可使知識系統(tǒng)的處理過程簡單化。2應(yīng)用粗糙集后的分類模型應(yīng)用了粗糙集理論后的文本分類模型主要包含訓(xùn)練模塊、測試模塊兩部分。基本工作原理如下:首先利用訓(xùn)練模塊生成一個分類器.然后選取一部分分好類的文本對分類器進(jìn)行分類效果測試,如果分類的準(zhǔn)確性不能滿足要求,則重新回到訓(xùn)練模塊,如此反復(fù),直到分類
6、準(zhǔn)確性達(dá)到要求才能輸出最后的分類器,而此時這個經(jīng)過訓(xùn)練的分類器才能對新文本信息進(jìn)行分類。引入粗糙集理論的文本分類器工作過程如圖1所示。(1)從語料庫中選出訓(xùn)練文本和測試文本,每篇樣本由人工預(yù)先分類,并標(biāo)上唯一的類別標(biāo)志。(2)對所有訓(xùn)練文本進(jìn)行預(yù)處理,即首先進(jìn)行分詞處理,將文檔變成無序、分散的詞條集合,然后將集合中存在的一些頻率很高但無意義的虛詞和功能詞,如“這、是、了、不僅、但是”等詞去除,合并同義詞、近義詞,最后進(jìn)行詞頻統(tǒng)3王珍珍:粗糙集理論在文本分類算法中的應(yīng)用計,形成詞頻矩陣如表1所示。(3)接著提取并表示文本特征。上一步生成的矩陣特征維
7、數(shù)仍然很高,因此需要構(gòu)造一個評價函數(shù),選取預(yù)定數(shù)目的最佳特征作為結(jié)果特征子集。常用特征權(quán)重算法考慮特征項的頻率信息TF和反文檔頻率IDF,即TF—IDF公式:其中:表示詞條t在文檔D中出現(xiàn)的頻率;』v表示全部樣本文檔的總數(shù):nk表示包含詞條tk的文檔數(shù)。此外還需要考慮詞條的位置信息。比如文章標(biāo)題、副標(biāo)題、關(guān)鍵字表中出現(xiàn)的詞條,應(yīng)全部保留下來。(4)離散化特征權(quán)值。在文本的向量空間模型中,權(quán)重是連續(xù)型數(shù)據(jù),而粗糙集只能處理離散數(shù)據(jù),必須先對特征權(quán)值進(jìn)行離散化處理。離散化還可以減少屬性值的個數(shù)。提高所得到規(guī)則的適應(yīng)度。(5)構(gòu)造決策信息表。以文本中提
8、取的特征子集作為決策表的條件屬性集,文本所屬的類別集合作為決策屬性集,表中的值是離散化后屬性值的表示符。(6)決策表的屬性約簡。原始決策