資源描述:
《一種基于類平均相似度的文本分類算法-論文.pdf》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、一種基于類平均相似度的文本分類算法木譚學(xué)清周通羅琳(武漢大學(xué)信息管理學(xué)院武漢430072)摘要:【目的】在KNN算法基礎(chǔ)上,提高文本分類的分類性能和分類速度?!痉椒ā刻岢鲆环N基于類平均相似度的分類算法,通過計算待分類文本與訓(xùn)練集各類別中所有文本相似度的平均值判斷待分類文本的所屬類別?!窘Y(jié)果】實(shí)驗(yàn)表明,本文方法在復(fù)旦、Sogou平衡、非平衡語料上的MacroF1比KNN分類算法分別提高3.5%、3.2%和3.3%,分類時問分別為KNN算法的1/22、1/6和1/5?!揪窒蕖靠紤]到KNN算法的時間效率,實(shí)驗(yàn)數(shù)據(jù)的文本數(shù)較少。【結(jié)論】相對于KNN,基于類
2、平均相似度是一種適用于大規(guī)模文本分類的實(shí)用分類算法。關(guān)鍵詞:類平均相似度向量空間模型KNN文本分類特征選擇分類號:TP391的長文本(~1]Sogou、復(fù)旦公開語料庫,其中Sogou文本1引言平均長度為685個字,復(fù)旦文本平均長度為2772個字),互聯(lián)網(wǎng)的普及和計算機(jī)技術(shù)的高速發(fā)展,使得電需對每篇待分類文本與所有訓(xùn)練集文本的相似度進(jìn)行子文檔迅速增加,互聯(lián)網(wǎng)在給用戶帶來海量信息的同排序,分類時間隨著訓(xùn)練集文本數(shù)和文本長度的增加時,也給用戶查找、過濾和管理這些海量信息帶來困而平方級增加,因此KNN算法對大量長文本分類的時難。因此,文本分類技術(shù)的研究引起
3、了人們的持續(xù)關(guān)間效率非常低;KNN算法的分類性能受訓(xùn)練樣本的分注。文本分類是指依據(jù)文本的內(nèi)容,由計算機(jī)根據(jù)某布情況影響較大,算法計算相似度時以樣本的特征項(xiàng)種自動分類算法把文本劃分到預(yù)先定義好的類。隨權(quán)重作為參數(shù),實(shí)際應(yīng)用中的數(shù)據(jù)往往是不平衡的,著文本信息量的快速增長,文本自動分類已成為信息因此當(dāng)數(shù)據(jù)分布出現(xiàn)傾斜時,大類樣本占據(jù)密度優(yōu)勢,檢索、知識挖掘和管理等領(lǐng)域的關(guān)鍵技術(shù)和研究熱點(diǎn)其包含的特征項(xiàng)權(quán)重值也隨之增加,導(dǎo)致分類效果不之一。理想。目前,關(guān)于文本分類的研究已經(jīng)取得很大的進(jìn)展,近年來,國內(nèi)外學(xué)者對文本分類算法做了大量研并提出一系列有效的分類算法
4、,如KNNfK—Nearest究,在經(jīng)典分類算法的基礎(chǔ)上,提出一些新的分類算Neighbors)算法[”、樸素貝葉斯算法、支持向量機(jī)[法或?qū)⑵渌I(lǐng)域的相關(guān)方法應(yīng)用于文本分類,取得了(Suppo~VectorMachine,SVM)等,其中應(yīng)用最廣泛的一定的成果。其中,鄭鳳萍【4]針對傳統(tǒng)VSM模型在文是KNN算法。KNN算法是一種非參數(shù)的分類技術(shù),憑本特征表示方面的不足,構(gòu)造了基于文本特征的模糊借其在分類過程中的穩(wěn)定性和實(shí)現(xiàn)簡單,成為國內(nèi)外VSM模型,并在此基礎(chǔ)上提出了基于RBF網(wǎng)絡(luò)的文本學(xué)者的研究熱點(diǎn),在基于統(tǒng)計的模式識別中非常有效,自動分類方法
5、,該方法在特征提取時充分考慮了特征對于未知和非正態(tài)分布可以取得較高的分類準(zhǔn)確率。項(xiàng)在文檔中的位置信息,構(gòu)造出模糊特征向量,使自但是KNN算法本質(zhì)上是一種基于實(shí)例的機(jī)器學(xué)動分類更接近手工分類方法;王建會等[51針對KNN算習(xí)方法在分類過程中也會有一些缺點(diǎn):對于大規(guī)模法時間復(fù)雜度高、可擴(kuò)展性差等問題,提出一種基于收稿日期:2014—03.10收修改稿日期:2014—04.16本文系國家社會科學(xué)基金項(xiàng)目“數(shù)字圖書館標(biāo)簽系統(tǒng)的語義挖掘研究”(項(xiàng)目編號:12CTQ003)的研究成果之一。_圈現(xiàn)代圖書情報技術(shù)總第250期2014年第9期互依賴和等效半徑的分類算
6、法SECTILE,該算法可擴(kuò)出現(xiàn)的范圍越廣,說明它區(qū)分文本內(nèi)容的屬性越低展性較好,且適用于大規(guī)模文本分類;朱靖波等[6】提(IDF)。其公式如下:出一種基于內(nèi)容主題識別算法FIFA的文本分類方法,VT啷(wik)=(wik)i(wik):(wik)。g‘N)‘)該方法主要通過特征識別模塊構(gòu)造文本的主題特征集,然后采用集聚公式進(jìn)行主題特征集聚過程,根據(jù)其中,tf(wik)為特征詞Wk在文本i中出現(xiàn)的頻集聚結(jié)果中各個主題的權(quán)值,選擇權(quán)值大的主題作為率,df(wjk)為文本集中出現(xiàn)過特征詞Wk的文本數(shù),N文本的主題標(biāo)注;Yigit[7J提出一種基于距離—
7、權(quán)重的分為文本集中的文本數(shù)。類算法,通過人工蜂群算法(ABe)尋找最優(yōu)權(quán)重對文2.2特征選擇方法本進(jìn)行分類:Mejdoub等]在KNN算法的基礎(chǔ)上提出一在文本表示過程中,對于文本集中的“非作用詞【llI”種圖形分類算法,有效結(jié)合使用有監(jiān)督和無監(jiān)督方法,(對文本分類表現(xiàn)力不強(qiáng)的特征詞)應(yīng)將其過濾掉,以提高分類性能。提高分類效果,同時降低特征向量的維度。特征選擇在上述研究的基礎(chǔ)上,針對KNN算法在對大規(guī)就是通過構(gòu)造一個特征評估函數(shù),計算每個特征詞的模長文本分類時的分類準(zhǔn)確率、時間效率等問題,本函數(shù)值,并根據(jù)該函數(shù)值選擇具有代表性的特征子集文提出一種基于
8、類平均相似度的分類算法(簡稱類平作為文本表示的特征項(xiàng),特征選擇的關(guān)鍵是特征評估均相似度算法),該方法通過計算待分類文本與訓(xùn)