資源描述:
《文本聚類中特征選擇方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號TP312密級UDC學(xué)校代碼10500碩碩士士學(xué)學(xué)位位論論文文(全日制專業(yè)學(xué)位)題目:文本聚類中特征選擇方法研究英文題目:StudyonFeatureSelectionMethodofTextClustering學(xué)位申請人姓名:華珍申請學(xué)位學(xué)科專業(yè):計(jì)算機(jī)技術(shù)指導(dǎo)教師姓名:熊才權(quán)二○一六年五月分類號TP312密級UDC學(xué)校代碼10500碩碩士士學(xué)學(xué)位位論論文文題目文本聚類中特征選擇方法研究英文題目StudyonFeatureSelectionMethoodofTextClustering研究生姓名(簽名)指導(dǎo)教師姓名(簽名)職稱申請學(xué)位學(xué)科名稱學(xué)科
2、代碼論文答辯日期學(xué)位授予日期學(xué)院負(fù)責(zé)人(簽名)評閱人姓名評閱人姓名年月日學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的研究成果。除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱
3、和借閱。本人授權(quán)湖北工業(yè)大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。學(xué)位論文作者簽名:指導(dǎo)教師簽名:日期:年月日日期:年月日摘要隨著互聯(lián)網(wǎng)的快速發(fā)展和廣泛普及,網(wǎng)絡(luò)上的信息資源日益豐富和龐大,想要合理地有效地管理這些海量繁雜的信息變得越來越困難。大部分?jǐn)?shù)據(jù)信息被存儲(chǔ)在電子媒體上,其中有許多數(shù)據(jù)都是以非結(jié)構(gòu)化的文本形式存在的,這在數(shù)據(jù)分析和處理方面增加了難度,因此人們很難從中挖掘出有價(jià)值的資源。文本聚類技術(shù)作為一種重要的技術(shù)在數(shù)據(jù)挖掘領(lǐng)域中能夠?qū)崿F(xiàn)這一目標(biāo)。文本聚類技術(shù)通過對大量的非結(jié)
4、構(gòu)化的文本數(shù)據(jù)信息進(jìn)行組織,使其轉(zhuǎn)換為少數(shù)有意義的簇,方便用戶發(fā)現(xiàn)其中有價(jià)值的信息。因此,文本聚類技術(shù)成為了熱點(diǎn)研究。本文對此所做的研究工作具體如下:(1)對文本聚類中的相關(guān)的技術(shù)做了系統(tǒng)性的介紹,并詳細(xì)地闡述了幾種用于文本聚類中的無監(jiān)督的特征選擇方法,以及各自的優(yōu)點(diǎn)和缺點(diǎn);然后,深入研究了文檔頻數(shù)(DF)算法和單詞貢獻(xiàn)度(TC)算法,對它們各自的優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行了深入剖析;最后,本文考慮特征詞的語義信息對文本的重要性,引入了詞性權(quán)值因子和詞長權(quán)值因子對文檔頻數(shù)算法做出改進(jìn),并結(jié)合了TC算法完成了特征選擇的步驟,提出了基于DF和TC的聯(lián)合特征選擇方法;(2
5、)簡單地闡述了幾類常見的文本聚類算法,并深入研究了K-means聚類算法,分析了它的優(yōu)點(diǎn)和缺點(diǎn)。K-means是一種簡單、高效的聚類算法,但其對于初始聚類中心有著極大的依賴性,當(dāng)初始聚類中心選擇不當(dāng)時(shí),最終得到的聚類結(jié)果可能是局部最優(yōu)解,而非全局最優(yōu)解。為此,本文結(jié)合了“距離優(yōu)化法”和“密度法”選取更優(yōu)的初始聚類中心以提高K-means的文本聚類效果,并提出了改進(jìn)的K-means方法;(3)設(shè)計(jì)了一個(gè)由文本預(yù)處理模塊、文本表示模塊、聚類分析模塊等基本功能模塊組成的中文文本聚類系統(tǒng)實(shí)驗(yàn)平臺,通過實(shí)驗(yàn)將本文提出的改進(jìn)方法與其原方法進(jìn)行比較,并利用查準(zhǔn)率、查全
6、率、F1值等性能評價(jià)指標(biāo)來評價(jià)實(shí)驗(yàn)結(jié)果。根據(jù)實(shí)驗(yàn)比較得出,本文的改進(jìn)方法的聚類效果更優(yōu)。關(guān)鍵詞:文本聚類,特征選擇方法,聚類算法IAbstractWiththerapiddevelopmentandpopularizationofInternet,networkinformationresourceshavebecomeincreasinglyrichandvast,whichmakesitverydifficulttomanagetheseinformationeffectively.Mostofthedataarestoredonelectronic
7、medias,manyofwhichareunstructuredtexts,whichincreasesthedifficultyindataanalysisandprocessing,makingitdifficultforpeopletodigoutvaluableresource.Textclusteringasanimportanttechnologyofdataminingfield,canachievethisgoal.Itcanorganizelargevolumesofunstructureddataintoasmallnumberof
8、meaningfulclusters,whichfacilitateusersf