資源描述:
《一種基于向量空間模型的多層次文本分類方法_劉少輝.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、中文信息學(xué)報(bào)第16卷第3期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.16No.3一種基于向量空間模型的多層次文本分類方法劉少輝董明楷張???李蓉史忠植(中國科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室北京100080)摘要:本文研究和改進(jìn)了經(jīng)典的向量空間模型(VSM)的詞語權(quán)重計(jì)算方法,并在此基礎(chǔ)上提出了一種基于向量空間模型的多層次文本分類方法。也就是把各類按照一定的層次關(guān)系組織成樹狀結(jié)構(gòu),并將一個(gè)類中的所有訓(xùn)練文檔合并為一個(gè)類文檔,在提取各類模型時(shí)只在同層同一結(jié)點(diǎn)下的類文檔之間進(jìn)行比較;而對文檔進(jìn)行自動(dòng)分類時(shí)
2、,首先從根結(jié)點(diǎn)開始找到對應(yīng)的大類,然后遞歸往下直到找到對應(yīng)的葉子子類。實(shí)驗(yàn)和實(shí)際系統(tǒng)表明,該方法具有較高的正確率和召回率。關(guān)鍵詞:文本分類;向量空間模型;信息增益;特征提取中圖分類號:TP391.1AnApproachofMultihierarchyTextClassificationBasedonVectorSpaceModelLIUShaohuiDONGMingkaiZHANGHaijunLIRongSHIZhongzhi(LaboratoryofIntelligentInformationProcessing,InstituteofComputing
3、Technology,ChineseAcademyofSciencesBeijing100080)Abstract:ThispaperdoesresearchandimprovesontheclassicalapproachofcalculatingthetermweightinVectorSpaceModel.Furthermore,anapproachofmultihierarchytextclassificationbasedonVectorSpaceModelisproposed.Inthisapproach,allclassesareorganizedas
4、atreeaccordingtosomegivenhierarchicalrelations,andallthetrainingdocumentsinaclassarecombinedintoaclassdocument.Inordertoconstructtheclassmodels,itisjustonlytocompareamongtheclassdocumentsattachedtothesamenodeofthesamelayer.Whenitisgoingtoclassifythedocuments,onematchingprocessishierarch
5、icallyperformedfromtherootnodetotheleafnodesuntilacorrespondingsubclassisfound.TheexperimentandrealsystemsindicatethattheapproachisofhighclassificationPrecisionandRecall.Keywords:TextClassification;VectorSpaceModel;InformationGain;FeatureSelection一、引言隨著信息技術(shù)的發(fā)展,特別是Internet應(yīng)用的普及,人們已經(jīng)從信息缺乏的時(shí)代
6、過渡到信息極為豐富的時(shí)代。如何從大量信息中迅速有效地提取出所需信息也就成為一項(xiàng)重要的研究課題。由于分類可以在較大程度上解決目前網(wǎng)上信息雜亂的現(xiàn)象,方便用戶準(zhǔn)確地定位所需[1,11]的信息,因此分類尤其是文本分類的研究變得越來越重要。文本分類的目標(biāo)是在分析文本內(nèi)容的基礎(chǔ)上給文本分配一個(gè)或多個(gè)比較合適的類別。目收稿日期:2001-11-8本文得到國家自然科學(xué)基金(60173017)和北京自然科學(xué)基金(4011003)支持作者劉少輝,男,1977年生,博士研究生,主要研究方向?yàn)閿?shù)據(jù)挖掘、信息檢索.董明楷,男,1973年生,博士研究生,主要研究方向?yàn)橹悄苤黧w、描述邏輯.張???男
7、,1980年生,碩士研究生,主要研究方向?yàn)橹悄苤黧w、軟件工程.李蓉,女,1973年生,碩士研究生,主要研究方向?yàn)樯窠?jīng)網(wǎng)絡(luò).史忠植,男,1941年生,研究員,博士生導(dǎo)師,主要研究方向?yàn)槿斯ぶ悄堋⒅R工程.8[2]前已經(jīng)有許多機(jī)器學(xué)習(xí)方法應(yīng)用到該領(lǐng)域:Vapnik提出的支持向量機(jī)(SVM);在文本分類[3]研究一開始就引起關(guān)注的K近鄰(KNN)分類器;Yang提出的一種線性最小二乘方擬合法[4][5][6](LLSF);Apte采用決策樹方法進(jìn)行分類。另外,神經(jīng)網(wǎng)絡(luò)(Nnet)和貝葉斯方法也被廣泛地應(yīng)用到文本分類中。上