資源描述:
《改進(jìn)的互信息與lda結(jié)合的特征降維方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號密級UDC編號中鐘篇A《幸碩i學(xué)位論文攻進(jìn)巧互信息與LDA結(jié)合巧棘化譯維方法研免學(xué)位申請人姓名;申請學(xué)位學(xué)生類別:全qW巧壬申請學(xué)位學(xué)科專業(yè);計其機(jī)應(yīng)巧拔術(shù)指導(dǎo)教師姓名;路利乂援z?\巧去學(xué)位論文'MASTERSTHKSTS碩±學(xué)位論文改進(jìn)的互信息與LDA結(jié)合的特征巧維方法研究論文作者:黃勇巧巧利親S學(xué)科專業(yè):計Jims用技術(shù)研究方向:中文信息^?誕華中!削im學(xué)院2016年5月Zm6\碩壬學(xué)位推文'MASTFRSTHFSrSResearcho
2、ntheFeatureDimensionReductionMethodBasedonImprovedMut:ualInfbrma杜onandLD乂AThesisSubmittedinPartialFulfillmentoftheReuirementqFortheM.S.DegreeinComputerScienceByHuanYonggPostradua化ProramggSchoolofComputerCentralChinaNormalUniversitySupe
3、rvisor:ChenLi,AcademicTitle:ProfessorSinaturegApprovedMay.2016\碩壬學(xué)位娩文/m|M'ASTERSTHFSfS華中師范大學(xué)學(xué)位論文原創(chuàng)牲聲明和使用授權(quán)說明原名J牲京巧本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下,獨立進(jìn)行研巧工作所取得的研究成果。除文中己經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個人或集體己經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻(xiàn)的個人和集體,均已在文中[^^明確方式標(biāo)明。本聲明的法律結(jié)果由本人承擔(dān)。作者簽名:I巧曰期
4、:義口/各年^月Z曰學(xué)住冷文敕權(quán)使用援權(quán)書學(xué)位論文作者完全了解華中師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:研’究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬華中師范大學(xué)。學(xué)校有權(quán)保留并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許學(xué)位論文被查閱和借閱;學(xué)??桑坠紝W(xué)位論文的全部或部分內(nèi)容,可W允許采用影印、縮印或其它復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后遵守此規(guī)定)保密論文注釋:本學(xué)位論文屬于保密,在年解密后適用本授權(quán)書。非保密論文注釋:本學(xué)位論文不屬于保密范圍,適用本授權(quán)書。,作者簽名:4?。墝?dǎo)師簽名:如M
5、名己目期:如5月2曰曰期年矣月節(jié)/占年""本人已經(jīng)認(rèn)真閱讀CALIS高校學(xué)位論文全文數(shù)據(jù)庫發(fā)布章程,同意將本人的""""學(xué)位論文提交CALIS高校學(xué)位論文全文數(shù)據(jù)庫中全文發(fā)布,并可按章程中的規(guī)’定享受相關(guān)權(quán)益-年□二年。同意論文提交后滯后:□半年;□;/ftAhrf^作者簽《:力導(dǎo)師簽名:/曰期:父月Z曰曰化月/戶^癡/ai碩去學(xué)位推文|^‘’'MASTTRST刖別s摘要文本分類是文本挖掘中的一個熱口研究領(lǐng)域。分類的流程包含關(guān)鍵的幾個環(huán)一節(jié),每個環(huán)節(jié)處理的合適與否都對文本分類的結(jié)果有定的影響,其中文本特征降一一
6、維是分類過程中最重要的環(huán)節(jié)么。如何將文本的特征有效的選擇出來是目前個較熱n的研究課題。本文主要W文本特征選擇中的互信息方法為研究對象,通過分析互信息特征選擇方法存在的不足一,提出了種互信息特征選拝改進(jìn)的方法。由于傳統(tǒng)方法進(jìn)行特征選揮時都是W數(shù)理統(tǒng)計為基礎(chǔ)的,忽視了詞項間的語義關(guān)系。結(jié)合LDA主題模型在分類領(lǐng)域中的應(yīng)用,通過將傳統(tǒng)的特征選擇方法與LDA結(jié)合的思路來對文本進(jìn)行特征降維,W便提高分類的效果。本文的主要工作如下;1、研究文獻(xiàn)資料,在分析中文文本分類研巧的發(fā)展現(xiàn)狀,重點W文本分類中互信息特征選擇為例進(jìn)行研究。分析互信息方法在做特征選
7、擇時表現(xiàn)的不足,提出了一種互信息特征選擇的改進(jìn)方法。2、由于互信息特征選擇方法沒有將特征詞的詞頻信息1^及文本類別之間的信息考慮進(jìn)來,而只是考慮了特征詞在文本集中的文本頻率。針對這個問題在基于文一本詞頻互信息改進(jìn)的基礎(chǔ)上,引入類間離散度和類內(nèi)分散度兩個概念,提出了種特征詞詞頻與類別區(qū)分詞相結(jié)合的互信息特征選擇方法,實驗分析表明本文提出的改進(jìn)方法能夠使文本分類的效果得到一定程度的提高。3、針對傳統(tǒng)方法在做特征選擇時都是數(shù)理統(tǒng)計為基礎(chǔ)的,并未考慮詞項間的語義信息,將本文改進(jìn)的互信息與LDA相結(jié)合來對文本進(jìn)行特征