資源描述:
《文本聚類中特征選擇方法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、分類號TP312密級UDC學校代碼10500碩碩士士學學位位論論文文(全日制專業(yè)學位)題目:文本聚類中特征選擇方法研究英文題目:StudyonFeatureSelectionMethodofTextClustering學位申請人姓名:華珍申請學位學科專業(yè):計算機技術指導教師姓名:熊才權二○一六年五月分類號TP312密級UDC學校代碼10500碩碩士士學學位位論論文文題目文本聚類中特征選擇方法研究英文題目StudyonFeatureSelectionMethoodofTextClustering研究生姓名(簽名)指導教師姓名(簽名)職稱申請學位學科名稱學科
2、代碼論文答辯日期學位授予日期學院負責人(簽名)評閱人姓名評閱人姓名年月日學位論文原創(chuàng)性聲明和使用授權說明原創(chuàng)性聲明本人鄭重聲明:所呈交的學位論文,是本人在導師指導下,獨立進行研究工作所取得的研究成果。除文中已經(jīng)標明引用的內容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻的個人和集體,均已在文中以明確方式標明。本聲明的法律結果由本人承擔。學位論文作者簽名:日期:年月日學位論文版權使用授權書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,即:學校有權保留并向國家有關部門或機構送交論文的復印件和電子版,允許論文被查閱
3、和借閱。本人授權湖北工業(yè)大學可以將本學位論文的全部或部分內容編入有關數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。學位論文作者簽名:指導教師簽名:日期:年月日日期:年月日摘要隨著互聯(lián)網(wǎng)的快速發(fā)展和廣泛普及,網(wǎng)絡上的信息資源日益豐富和龐大,想要合理地有效地管理這些海量繁雜的信息變得越來越困難。大部分數(shù)據(jù)信息被存儲在電子媒體上,其中有許多數(shù)據(jù)都是以非結構化的文本形式存在的,這在數(shù)據(jù)分析和處理方面增加了難度,因此人們很難從中挖掘出有價值的資源。文本聚類技術作為一種重要的技術在數(shù)據(jù)挖掘領域中能夠實現(xiàn)這一目標。文本聚類技術通過對大量的非結
4、構化的文本數(shù)據(jù)信息進行組織,使其轉換為少數(shù)有意義的簇,方便用戶發(fā)現(xiàn)其中有價值的信息。因此,文本聚類技術成為了熱點研究。本文對此所做的研究工作具體如下:(1)對文本聚類中的相關的技術做了系統(tǒng)性的介紹,并詳細地闡述了幾種用于文本聚類中的無監(jiān)督的特征選擇方法,以及各自的優(yōu)點和缺點;然后,深入研究了文檔頻數(shù)(DF)算法和單詞貢獻度(TC)算法,對它們各自的優(yōu)點和缺點進行了深入剖析;最后,本文考慮特征詞的語義信息對文本的重要性,引入了詞性權值因子和詞長權值因子對文檔頻數(shù)算法做出改進,并結合了TC算法完成了特征選擇的步驟,提出了基于DF和TC的聯(lián)合特征選擇方法;(2
5、)簡單地闡述了幾類常見的文本聚類算法,并深入研究了K-means聚類算法,分析了它的優(yōu)點和缺點。K-means是一種簡單、高效的聚類算法,但其對于初始聚類中心有著極大的依賴性,當初始聚類中心選擇不當時,最終得到的聚類結果可能是局部最優(yōu)解,而非全局最優(yōu)解。為此,本文結合了“距離優(yōu)化法”和“密度法”選取更優(yōu)的初始聚類中心以提高K-means的文本聚類效果,并提出了改進的K-means方法;(3)設計了一個由文本預處理模塊、文本表示模塊、聚類分析模塊等基本功能模塊組成的中文文本聚類系統(tǒng)實驗平臺,通過實驗將本文提出的改進方法與其原方法進行比較,并利用查準率、查全
6、率、F1值等性能評價指標來評價實驗結果。根據(jù)實驗比較得出,本文的改進方法的聚類效果更優(yōu)。關鍵詞:文本聚類,特征選擇方法,聚類算法IAbstractWiththerapiddevelopmentandpopularizationofInternet,networkinformationresourceshavebecomeincreasinglyrichandvast,whichmakesitverydifficulttomanagetheseinformationeffectively.Mostofthedataarestoredonelectronic
7、medias,manyofwhichareunstructuredtexts,whichincreasesthedifficultyindataanalysisandprocessing,makingitdifficultforpeopletodigoutvaluableresource.Textclusteringasanimportanttechnologyofdataminingfield,canachievethisgoal.Itcanorganizelargevolumesofunstructureddataintoasmallnumberof
8、meaningfulclusters,whichfacilitateusersf