資源描述:
《基于樸素貝葉斯分類模型文本特征選擇探究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于樸素貝葉斯分類模型文本特征選擇探究 摘要:該文主要對文本自動(dòng)分類的特征選擇方法進(jìn)行了討論,分析了幾種常見方法存在的缺陷,指出影響出文本特征選擇的兩個(gè)重要因素——特征項(xiàng)在類別內(nèi)的文檔頻率和在類別間的分布差異,并以這兩個(gè)因素為影響因子分別對TF-IDF和IG方法進(jìn)行了改進(jìn)。另外還介紹了樸素貝葉斯分類模型,并基于此模型對改進(jìn)的特征選擇方法的分類效果進(jìn)行評估。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方法能夠強(qiáng)化特征項(xiàng)在特定類別中的影響力,提高文本分類效果。關(guān)鍵詞:文本分類;特征選擇中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2
2、014)01-0133-051概述文本特征選擇(TextFeatureSelection)是文本自動(dòng)分類過程(圖1)中的重要環(huán)節(jié)。文本自動(dòng)分類(AutomaticText11Categorization)是指運(yùn)用計(jì)算機(jī)技術(shù),在預(yù)先定義的分類體系下,根據(jù)待分類文檔內(nèi)容,將其歸屬為一個(gè)或多個(gè)類別的處理過程。文本自動(dòng)分類技術(shù)的研究始于20世紀(jì)50年代[2],至今出現(xiàn)了基于不同理論的多種分類模型[3],在這些模型中,用向量空間模型(VSM)來表示文檔[5],比如,用T表示文檔包含的詞匯集合,用每個(gè)詞及其在文本中的權(quán)重作為特征項(xiàng),則可將一
3、篇文檔表示為向量d=(t1,t2,…tm)(ti∈T,1≤i≤m),然后根據(jù)文檔向量和類別向量計(jì)算出相似度,從而確定文檔所屬類別。文本特征選擇是從高維文本特征集合中篩選出一部分特征組成一個(gè)低維的向量空間的過程。那么為什么要進(jìn)行特征選擇,是不是維數(shù)越高分類效果就越好呢?事實(shí)并非如此。一篇文檔往往包含數(shù)百乃至成千上萬個(gè)詞條,對于語料訓(xùn)練集來說,詞條數(shù)目更是達(dá)到百萬級甚至更多。高維的特征,不僅增加了機(jī)器學(xué)習(xí)的負(fù)擔(dān),提高分類的計(jì)算復(fù)雜度,而且,過高的特征維數(shù)反而有可能降低分類的準(zhǔn)確性[6],形成“高維災(zāi)難”。這是因?yàn)樵谡麄€(gè)特征集合中,有
4、很多詞在各個(gè)類別的文檔中出現(xiàn)的頻率差別不明顯甚至幾乎一樣,類別區(qū)分能力很弱。還有一些詞只在極少數(shù)的文檔中出現(xiàn),也不能作為類別劃分的參考。文本特征選擇目標(biāo)就是去除這些對區(qū)分類別沒有作用的特征項(xiàng)。對文本進(jìn)行降維處理,不僅可以提高分類的效果,而且能夠有效降低分類過程的計(jì)算復(fù)雜度,大大節(jié)省了時(shí)間成本。從圖1可以看出,特征選擇是產(chǎn)生文本特征向量的前提,直接影響模型訓(xùn)練的質(zhì)量和分類的效果。該文將分析目前特征選擇方法存在的問題,討論影響特征選擇的因素,提出改進(jìn)方法,并用樸素貝葉斯模型對其分類效果進(jìn)行評估。2相關(guān)研究112.1特征選擇方法對于不
5、同的分類算法,應(yīng)采用不同的特征選擇方法以達(dá)到較為理想的分類效果。用于文本分類的特征統(tǒng)計(jì)量有:特征頻率(TermFrequency,簡稱TF)、文檔頻率(DocumentFrequency,DF)、信息增益、χ2統(tǒng)計(jì)量、互信息等等。下面介紹幾種常用的特征選擇方法,并討論這些方法存在的缺陷。2.1.1TF、DF和TF-IDFTF是特征t在文檔集中出現(xiàn)的頻率,計(jì)算方法是tf=t出現(xiàn)的次數(shù)÷文檔集中總詞數(shù)(含重復(fù))。DF是包含特征t的文檔的頻率,計(jì)算方法是df=包含t的文檔數(shù)÷總文檔數(shù)。因?yàn)樵诓煌悇e的文檔中相同特征項(xiàng)出現(xiàn)的頻率是有差異
6、的,如果t在某類別中出現(xiàn)的頻率較高,那么其在這個(gè)類別中的DF一般也高,因此t可以作為文本的類別特征。但是,單純使用TF或DF還不足以區(qū)分不同特征對文本類別的貢獻(xiàn),因?yàn)橛锌赡芟嗤卣髟谒蓄悇e中出現(xiàn)的頻率都很高,或者不同特征在某個(gè)類別中出現(xiàn)的頻率相同卻在另一個(gè)類別中出現(xiàn)的頻率相差甚遠(yuǎn),這兩種情況都不能正確反應(yīng)特征對文檔類別的影響,因此有一種方法將TF與逆文檔頻率(InverseDocumentFrequency,IDF)結(jié)合起來,稱為TF-IDF方法,計(jì)算公式為式中idf的計(jì)算方法為idf=log11[Nn],N代表訓(xùn)練集文檔總數(shù)
7、,n代表出現(xiàn)特征t的文檔數(shù)。idf反應(yīng)的是特征項(xiàng)在訓(xùn)練集文檔中的分布情況,它能夠弱化在各類別中共同高頻特征項(xiàng)的作用,同時(shí)強(qiáng)化只在少數(shù)類別中出現(xiàn)的相對低頻的特征項(xiàng)的重要度。2.1.2信息增益(InformationGain,IG)文本特征的信息增益是指一個(gè)特征所攜帶的分類信息量,常見公式為其中,n是類別數(shù),p(ci)是第i類出現(xiàn)的概率,若每類平均出現(xiàn),則p(ci)=[1n]。p(t)=包含詞語t的文檔數(shù)÷總文檔數(shù),p(t)=1-p([t])。[p(ci
8、t)]即[t]出現(xiàn)時(shí),[ci]出現(xiàn)的概率,等于類[ci]中包含t的文檔數(shù)除以訓(xùn)
9、練集中出現(xiàn)[t]的文檔總數(shù)。[p(ci
10、t)]即[t]不出現(xiàn)但屬于[ci]的概率,等于類[ci]中不包含t的文檔數(shù)除以訓(xùn)練集中未出現(xiàn)[t]的文檔總數(shù)。2.1.3χ2統(tǒng)計(jì)量(CHI-squarestatistic)在文本分類中,χ2統(tǒng)計(jì)量表達(dá)的是特征項(xiàng)與類別之間的