資源描述:
《優(yōu)化特征選擇的ctm模型在文本分類中的應(yīng)用研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號密級U口C編號采中鐘裝欠考碩:t學(xué)位論文化化精化遠(yuǎn)擇的CTM摸型在文本分類中的應(yīng)用研苑V學(xué)位申請人姓名:柄正良’申請學(xué)位學(xué)生類別:工程碩擊申請學(xué)位學(xué)科專業(yè):計(jì)算如i技米指導(dǎo)教師姓名:每長襪到教援巧去學(xué)位論文MA'STERSTHESSI碩d:學(xué)位論文優(yōu)化特征選擇的CTM模型在文本分類中的應(yīng)用研究論文作者:楊正良指^師:馬長林副教授戦專業(yè):計(jì)IWI技術(shù)研究方向:機(jī)器學(xué)習(xí)華中師范大學(xué)計(jì)算執(zhí)學(xué)院2016年5月碩去學(xué)位論文MASTERSTHESISAlica
2、tionofCTMmodelOtimizationpppFeatureSelectioninTextCateorizationgAThesisSubmitedinPartialFulfillmentoftheRequirementFortheM.S.DegreeinComputerTechnologyByYanZhenliangggPostradua化ProramggSchoolofComuterpCen化alChinaNormalUniversitySuervisor:MaChangli
3、npAcademicTitle:AssociateProfessorSinaturegArovedppMay,2016碩壬學(xué)位論文MA'STERSTHESIS華中師瘡大學(xué)學(xué)侄冷文廣創(chuàng)牲京巧和使用狡枚說巧尿準(zhǔn)1牲京巧本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的研巧成果。除文中己經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體己經(jīng)發(fā)表或撰寫過的研巧成果。對本文的研究做出貢獻(xiàn)的個(gè)人和集體,均己在文中明確方式標(biāo)明。本聲明的法律結(jié)果由本人承擔(dān)。《作者簽《:曰期:年月曰/學(xué)化冷文狀權(quán)使用援權(quán)書本學(xué)
4、位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)忠即:學(xué)較有權(quán)保留并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版允許論文被查閱和借閱。本人授權(quán)華中師范大學(xué)可W將本學(xué)位論文的全部或部分內(nèi)龍入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。同意華中師范大學(xué)可W用不同方式在不同媒體上發(fā)表、傳播學(xué)位論文的全部或部分內(nèi)備作者簽名:導(dǎo)師簽;日期:月日日期:年^月日^年<^/I""本人己經(jīng)認(rèn)真閱讀CALIS高校學(xué)位論文全文數(shù)據(jù)庫發(fā)布章程,同意將本人的""""學(xué)位論文提交CALIS高校學(xué)位論文全文數(shù)據(jù)庫中全文發(fā)布,并可按章程中的同意論古播
5、々后滯后一年規(guī)定享受相關(guān)權(quán)益。:□半年:□:□二年發(fā)布。作者簽名:導(dǎo)師簽;曰期:7〇11年(月曰曰化日f護(hù)(月(>6碩壬學(xué)位論文MASTERSTHESIS摘要隨著互聯(lián)網(wǎng)的快速發(fā)展、海量信息的出現(xiàn),人們己經(jīng)從信息資源匯乏的年代過渡到信息資源豐富的大數(shù)據(jù)時(shí)代。如何快速、有效地從海量信息中提取所需的信息一大挑戰(zhàn)一是當(dāng)今信息科學(xué)和技術(shù)領(lǐng)域面臨的,而文本分類就是解決這問題的途徑一之。其中特征選擇和文本表示是影響文本分類的重要因素,現(xiàn)階段相關(guān)主題模型CTM(CorrelatedTopicModel)己作為有效的文本表示方應(yīng)法用在文本分類中,
6、該模型能很好的表現(xiàn)出主題之間的相關(guān)性,同時(shí)在力求保證信息完整性的條件下有效地降低文本數(shù)據(jù)的維度,對分類精度和速度都得到了提髙。然而該模型輸入特征的選擇和最優(yōu)主題數(shù)的確定仍然是一大難題。本文針對CTM模型在文本分類中的特征選擇方法,W及模型的最優(yōu)主題數(shù)確定一工作做了;定的研究,完成了W下(1)分析當(dāng)前文本分類中文本表示遇到的困難化及CTM模型在文本表示中的優(yōu)點(diǎn);(2)采用基于復(fù)雜度和對數(shù)似然值的方法,確定CTM模型中的最佳主題數(shù);3一M()采用種基于主成分分析與互信息相結(jié)合的CT模型特征選取方法,從而減少冗余特征;(4)基于上述理論方法,采用R
7、語言的相關(guān)函數(shù)包建立CTM模型,并構(gòu)建文本分一類實(shí)驗(yàn)系統(tǒng),,驗(yàn)證了所使用方法的有效性為進(jìn)步開發(fā)文本分類應(yīng)用系統(tǒng)提供了幫助。-,工作進(jìn)行了總結(jié)。最后對所做的,并對W后將要研巧的內(nèi)容進(jìn)行了展望:文本表示關(guān)鍵字;相關(guān)主題模型;主題數(shù)目;特征選取;主成分分析;互信息I.一碩擊學(xué)位論文MASTERSTHESISAbstractWiththerapiddevelopmentoftheI打tem