文本聚類中特征選擇方法研究

ID：35082944

大?。?.21 MB

頁數(shù)：46頁

時(shí)間：2019-03-17

資源描述：

《文本聚類中特征選擇方法研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、分類號TP312密級UDC學(xué)校代碼10500碩碩士士學(xué)學(xué)位位論論文文（全日制專業(yè)學(xué)位）題目：文本聚類中特征選擇方法研究英文題目：StudyonFeatureSelectionMethodofTextClustering學(xué)位申請人姓名：華珍申請學(xué)位學(xué)科專業(yè)：計(jì)算機(jī)技術(shù)指導(dǎo)教師姓名：熊才權(quán)二○一六年五月分類號TP312密級UDC學(xué)校代碼10500碩碩士士學(xué)學(xué)位位論論文文題目文本聚類中特征選擇方法研究英文題目StudyonFeatureSelectionMethoodofTextClustering研究生姓名（簽名）指導(dǎo)教師姓名（簽名）職稱申請學(xué)位學(xué)科名稱學(xué)科

2、代碼論文答辯日期學(xué)位授予日期學(xué)院負(fù)責(zé)人（簽名）評閱人姓名評閱人姓名年月日學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重聲明：所呈交的學(xué)位論文，是本人在導(dǎo)師指導(dǎo)下，獨(dú)立進(jìn)行研究工作所取得的研究成果。除文中已經(jīng)標(biāo)明引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻(xiàn)的個(gè)人和集體，均已在文中以明確方式標(biāo)明。本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名：日期：年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定，即：學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版，允許論文被查閱

3、和借閱。本人授權(quán)湖北工業(yè)大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索，可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。學(xué)位論文作者簽名：指導(dǎo)教師簽名：日期：年月日日期：年月日摘要隨著互聯(lián)網(wǎng)的快速發(fā)展和廣泛普及，網(wǎng)絡(luò)上的信息資源日益豐富和龐大，想要合理地有效地管理這些海量繁雜的信息變得越來越困難。大部分?jǐn)?shù)據(jù)信息被存儲(chǔ)在電子媒體上，其中有許多數(shù)據(jù)都是以非結(jié)構(gòu)化的文本形式存在的，這在數(shù)據(jù)分析和處理方面增加了難度，因此人們很難從中挖掘出有價(jià)值的資源。文本聚類技術(shù)作為一種重要的技術(shù)在數(shù)據(jù)挖掘領(lǐng)域中能夠?qū)崿F(xiàn)這一目標(biāo)。文本聚類技術(shù)通過對大量的非結(jié)

4、構(gòu)化的文本數(shù)據(jù)信息進(jìn)行組織，使其轉(zhuǎn)換為少數(shù)有意義的簇，方便用戶發(fā)現(xiàn)其中有價(jià)值的信息。因此，文本聚類技術(shù)成為了熱點(diǎn)研究。本文對此所做的研究工作具體如下:(1)對文本聚類中的相關(guān)的技術(shù)做了系統(tǒng)性的介紹，并詳細(xì)地闡述了幾種用于文本聚類中的無監(jiān)督的特征選擇方法，以及各自的優(yōu)點(diǎn)和缺點(diǎn)；然后，深入研究了文檔頻數(shù)（DF）算法和單詞貢獻(xiàn)度（TC）算法，對它們各自的優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行了深入剖析；最后，本文考慮特征詞的語義信息對文本的重要性，引入了詞性權(quán)值因子和詞長權(quán)值因子對文檔頻數(shù)算法做出改進(jìn)，并結(jié)合了TC算法完成了特征選擇的步驟，提出了基于DF和TC的聯(lián)合特征選擇方法；(2

5、)簡單地闡述了幾類常見的文本聚類算法，并深入研究了K-means聚類算法，分析了它的優(yōu)點(diǎn)和缺點(diǎn)。K-means是一種簡單、高效的聚類算法，但其對于初始聚類中心有著極大的依賴性，當(dāng)初始聚類中心選擇不當(dāng)時(shí)，最終得到的聚類結(jié)果可能是局部最優(yōu)解，而非全局最優(yōu)解。為此，本文結(jié)合了“距離優(yōu)化法”和“密度法”選取更優(yōu)的初始聚類中心以提高K-means的文本聚類效果，并提出了改進(jìn)的K-means方法；(3)設(shè)計(jì)了一個(gè)由文本預(yù)處理模塊、文本表示模塊、聚類分析模塊等基本功能模塊組成的中文文本聚類系統(tǒng)實(shí)驗(yàn)平臺，通過實(shí)驗(yàn)將本文提出的改進(jìn)方法與其原方法進(jìn)行比較，并利用查準(zhǔn)率、查全

6、率、F1值等性能評價(jià)指標(biāo)來評價(jià)實(shí)驗(yàn)結(jié)果。根據(jù)實(shí)驗(yàn)比較得出，本文的改進(jìn)方法的聚類效果更優(yōu)。關(guān)鍵詞：文本聚類，特征選擇方法，聚類算法IAbstractWiththerapiddevelopmentandpopularizationofInternet,networkinformationresourceshavebecomeincreasinglyrichandvast,whichmakesitverydifficulttomanagetheseinformationeffectively.Mostofthedataarestoredonelectronic

7、medias,manyofwhichareunstructuredtexts,whichincreasesthedifficultyindataanalysisandprocessing,makingitdifficultforpeopletodigoutvaluableresource.Textclusteringasanimportanttechnologyofdataminingfield,canachievethisgoal.Itcanorganizelargevolumesofunstructureddataintoasmallnumberof

8、meaningfulclusters,whichfacilitateusersf

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 46



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

文本聚類中特征選擇方法研究

文本聚類中特征選擇方法研究

相關(guān)文章

相關(guān)標(biāo)簽