一種基于向量空間模型的多層次分類(lèi)方法

一種基于向量空間模型的多層次分類(lèi)方法

ID:6353245

大?。?22.00 KB

頁(yè)數(shù):7頁(yè)

時(shí)間:2018-01-11

一種基于向量空間模型的多層次分類(lèi)方法_第1頁(yè)
一種基于向量空間模型的多層次分類(lèi)方法_第2頁(yè)
一種基于向量空間模型的多層次分類(lèi)方法_第3頁(yè)
一種基于向量空間模型的多層次分類(lèi)方法_第4頁(yè)
一種基于向量空間模型的多層次分類(lèi)方法_第5頁(yè)
資源描述:

《一種基于向量空間模型的多層次分類(lèi)方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)

1、一種基于向量空間模型的多層次文本分類(lèi)方法劉少輝董明楷張??±钊厥分抑玻ㄖ锌圃河?jì)算所智能信息處理開(kāi)發(fā)實(shí)驗(yàn)室北京100080)摘要本文對(duì)經(jīng)典的向量空間模型(VSM)的詞語(yǔ)權(quán)重計(jì)算公式進(jìn)行了改進(jìn),并在此基礎(chǔ)上提出了一種基于向量空間模型的多層次文本分類(lèi)方法。也就是把各類(lèi)按照一定的層次關(guān)系組織成樹(shù)狀結(jié)構(gòu),將一個(gè)文檔類(lèi)中的所有訓(xùn)練文檔合并為一個(gè)類(lèi)文檔,在提取各類(lèi)模型時(shí)只在同層同一結(jié)點(diǎn)下的類(lèi)訓(xùn)練文檔間進(jìn)行比較;而對(duì)文檔進(jìn)行自動(dòng)分類(lèi)時(shí),首先從根結(jié)點(diǎn)開(kāi)始找到對(duì)應(yīng)的大類(lèi),然后遞歸往下直到找到對(duì)應(yīng)的最底層子類(lèi)。實(shí)驗(yàn)和實(shí)際系統(tǒng)表明,該方法具有較高的正確率和召回率。關(guān)鍵詞文本分類(lèi)向量空間模型信息增益

2、特征提取AnApproachofMulti-hierarchyTextClassificationBasedonVectorSpaceModelLiuShaohuiDongMingkaiZhangHaijunLiRongShiZhongzhi(LaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080)AbstractThispaperimprovesontheclassicalformulaofcalcu

3、latingthetermweightinVectorSpaceModel.Furthermore,anapproachofmulti-hierarchytextclassificationbasedonVectorSpaceModelisproposed.Inthisapproach,allclassesareorganizedasatreeaccordingtosomegivenhierarchicalrelations,andallthetrainingdocumentsinaclassarecombinedintoaclass-document.Inordertoc

4、onstructtheclassmodels,itisjustonlytocompareamongtheclass-documentsattachedtothesamenodeofthesamelayer.Whenitisgoingtoclassifythedocuments,onematchingprocessishierarchicallyperformedfromtherootnodetotheleafnodesuntilacorrespondingsubclassisfound.Theexperimentandrealsystemsindicatesthatthea

5、pproachisofhighclassificationPrecisionandRecall.KeywordsTextClassification,VectorSpaceModel,InformationGain,FeatureSelection1.引言隨著信息技術(shù)的發(fā)展,特別是Internet應(yīng)用的普及,人們已經(jīng)從信息缺乏的時(shí)代過(guò)渡到信息極為豐富的時(shí)代。如何從大量信息中迅速有效地提取出所需信息也就成為一項(xiàng)重要的研究課題。由于分類(lèi)可以在較大程度上解決目前網(wǎng)上信息雜亂的現(xiàn)象,方便用戶(hù)準(zhǔn)確地定位所需的信息,因此分類(lèi)尤其是文本分類(lèi)的研究變得越來(lái)越重要[1,10]。但是,如果僅僅

6、通過(guò)人工的手段對(duì)龐大的原始文本信息進(jìn)行組織分類(lèi),雖然準(zhǔn)確率高,但需要花費(fèi)相當(dāng)大的時(shí)間和精力,而且分類(lèi)的結(jié)果受人的主觀因素的影響較大。相比而言,若能用計(jì)算機(jī)能直接對(duì)大量的文本進(jìn)行自動(dòng)分類(lèi),就能使人們從繁瑣的手工工作中解放出來(lái),并能極大地提高信息的利用率。文本分類(lèi)的目標(biāo)是在分析文本內(nèi)容的基礎(chǔ)上給文本一個(gè)或多個(gè)比較合適的類(lèi)別。目前已經(jīng)有許多機(jī)器學(xué)習(xí)方法和統(tǒng)計(jì)方法。Vapnik提出的支持向量機(jī)(SVM)[2];在文本分類(lèi)研究一開(kāi)始就引起關(guān)注的K近鄰(KNN)分類(lèi)器[3];Yang提出的一種線性最小二乘方擬合法(LLSF)[4];Apte采用決策樹(shù)方法進(jìn)行分類(lèi)[5]。另外,神經(jīng)網(wǎng)絡(luò)(

7、NNet)和貝葉斯[6],方法也被廣泛地應(yīng)用到文本分類(lèi)中。上述大多數(shù)方法都采用了經(jīng)典的向量空間模型(VSM)。在該模型中,文檔的內(nèi)容被形式為多維空間中的一個(gè)點(diǎn),以向量的形式給出,然后通過(guò)計(jì)算向量間的距離給定向量類(lèi)別的歸屬。而在向量空間模型中,經(jīng)典的詞語(yǔ)權(quán)重計(jì)算方法是if.idf,針對(duì)if.idf的不足,魯松等[7]提出了一種結(jié)合信息論中信息增益的文檔表示改進(jìn)算法tf.idf.ig,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的可行性和有效性。本文對(duì)tf.idf.ig方法進(jìn)行了分析,改進(jìn)了權(quán)重的計(jì)算公式,使之更加合理。另外,在此改進(jìn)的基礎(chǔ)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。