文本聚類中特征選擇方法研究

文本聚類中特征選擇方法研究

ID:35082944

大?。?.21 MB

頁數(shù):46頁

時(shí)間:2019-03-17

文本聚類中特征選擇方法研究_第1頁
文本聚類中特征選擇方法研究_第2頁
文本聚類中特征選擇方法研究_第3頁
文本聚類中特征選擇方法研究_第4頁
文本聚類中特征選擇方法研究_第5頁
資源描述:

《文本聚類中特征選擇方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、分類號TP312密級UDC學(xué)校代碼10500碩碩士士學(xué)學(xué)位位論論文文(全日制專業(yè)學(xué)位)題目:文本聚類中特征選擇方法研究英文題目:StudyonFeatureSelectionMethodofTextClustering學(xué)位申請人姓名:華珍申請學(xué)位學(xué)科專業(yè):計(jì)算機(jī)技術(shù)指導(dǎo)教師姓名:熊才權(quán)二○一六年五月分類號TP312密級UDC學(xué)校代碼10500碩碩士士學(xué)學(xué)位位論論文文題目文本聚類中特征選擇方法研究英文題目StudyonFeatureSelectionMethoodofTextClustering研究生姓名(簽名)指導(dǎo)教師姓名(簽名)職稱申請學(xué)位學(xué)科名稱學(xué)科

2、代碼論文答辯日期學(xué)位授予日期學(xué)院負(fù)責(zé)人(簽名)評閱人姓名評閱人姓名年月日學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的研究成果。除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱

3、和借閱。本人授權(quán)湖北工業(yè)大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。學(xué)位論文作者簽名:指導(dǎo)教師簽名:日期:年月日日期:年月日摘要隨著互聯(lián)網(wǎng)的快速發(fā)展和廣泛普及,網(wǎng)絡(luò)上的信息資源日益豐富和龐大,想要合理地有效地管理這些海量繁雜的信息變得越來越困難。大部分?jǐn)?shù)據(jù)信息被存儲(chǔ)在電子媒體上,其中有許多數(shù)據(jù)都是以非結(jié)構(gòu)化的文本形式存在的,這在數(shù)據(jù)分析和處理方面增加了難度,因此人們很難從中挖掘出有價(jià)值的資源。文本聚類技術(shù)作為一種重要的技術(shù)在數(shù)據(jù)挖掘領(lǐng)域中能夠?qū)崿F(xiàn)這一目標(biāo)。文本聚類技術(shù)通過對大量的非結(jié)

4、構(gòu)化的文本數(shù)據(jù)信息進(jìn)行組織,使其轉(zhuǎn)換為少數(shù)有意義的簇,方便用戶發(fā)現(xiàn)其中有價(jià)值的信息。因此,文本聚類技術(shù)成為了熱點(diǎn)研究。本文對此所做的研究工作具體如下:(1)對文本聚類中的相關(guān)的技術(shù)做了系統(tǒng)性的介紹,并詳細(xì)地闡述了幾種用于文本聚類中的無監(jiān)督的特征選擇方法,以及各自的優(yōu)點(diǎn)和缺點(diǎn);然后,深入研究了文檔頻數(shù)(DF)算法和單詞貢獻(xiàn)度(TC)算法,對它們各自的優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行了深入剖析;最后,本文考慮特征詞的語義信息對文本的重要性,引入了詞性權(quán)值因子和詞長權(quán)值因子對文檔頻數(shù)算法做出改進(jìn),并結(jié)合了TC算法完成了特征選擇的步驟,提出了基于DF和TC的聯(lián)合特征選擇方法;(2

5、)簡單地闡述了幾類常見的文本聚類算法,并深入研究了K-means聚類算法,分析了它的優(yōu)點(diǎn)和缺點(diǎn)。K-means是一種簡單、高效的聚類算法,但其對于初始聚類中心有著極大的依賴性,當(dāng)初始聚類中心選擇不當(dāng)時(shí),最終得到的聚類結(jié)果可能是局部最優(yōu)解,而非全局最優(yōu)解。為此,本文結(jié)合了“距離優(yōu)化法”和“密度法”選取更優(yōu)的初始聚類中心以提高K-means的文本聚類效果,并提出了改進(jìn)的K-means方法;(3)設(shè)計(jì)了一個(gè)由文本預(yù)處理模塊、文本表示模塊、聚類分析模塊等基本功能模塊組成的中文文本聚類系統(tǒng)實(shí)驗(yàn)平臺,通過實(shí)驗(yàn)將本文提出的改進(jìn)方法與其原方法進(jìn)行比較,并利用查準(zhǔn)率、查全

6、率、F1值等性能評價(jià)指標(biāo)來評價(jià)實(shí)驗(yàn)結(jié)果。根據(jù)實(shí)驗(yàn)比較得出,本文的改進(jìn)方法的聚類效果更優(yōu)。關(guān)鍵詞:文本聚類,特征選擇方法,聚類算法IAbstractWiththerapiddevelopmentandpopularizationofInternet,networkinformationresourceshavebecomeincreasinglyrichandvast,whichmakesitverydifficulttomanagetheseinformationeffectively.Mostofthedataarestoredonelectronic

7、medias,manyofwhichareunstructuredtexts,whichincreasesthedifficultyindataanalysisandprocessing,makingitdifficultforpeopletodigoutvaluableresource.Textclusteringasanimportanttechnologyofdataminingfield,canachievethisgoal.Itcanorganizelargevolumesofunstructureddataintoasmallnumberof

8、meaningfulclusters,whichfacilitateusersf

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。