基于混合文本集的文本聚類方法研究

基于混合文本集的文本聚類方法研究

ID:35178865

大?。?.47 MB

頁數(shù):57頁

時間:2019-03-20

基于混合文本集的文本聚類方法研究_第1頁
基于混合文本集的文本聚類方法研究_第2頁
基于混合文本集的文本聚類方法研究_第3頁
基于混合文本集的文本聚類方法研究_第4頁
基于混合文本集的文本聚類方法研究_第5頁
資源描述:

《基于混合文本集的文本聚類方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、碩士學(xué)位論文題目:基于混合文本集的文本聚類方法研究研究生林海榕專業(yè)計算機軟件與理論指導(dǎo)教師吳國華研究員完成日期2016年3月抗航子科技大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下.獨立進巧研巧工作所?。崳姷玫某晒?,本論文不含任何其他個人或集體己經(jīng)發(fā)表或撰寫。除文中已經(jīng)注明引用的內(nèi)容外過的作品或成果。對本文的研巧做出重要扉巧的個人和集體,均己在文中■明確方式標(biāo)明。申請學(xué)位訟文與資料若有不實之化一,本人承擔(dān)切相關(guān)責(zé)任。論文作者簽名:卡論祇日

2、期;>〇山年^月?。栽唬崳妼W(xué)位論文使用授權(quán)說明本人完全了解杭州電子科技大學(xué)關(guān)于保留和使用學(xué)位論文的規(guī)定-目P:研巧生在校攻工作的知識產(chǎn)權(quán)單位屬杭州電子科技大學(xué)?讀學(xué)位巧間論文。本人保證畢業(yè)離校后發(fā)表論文或使用論文工作成果時署名單位仍然為抗掛電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)?。崳姟?,:學(xué)校^公布論文的全部或部分可臥允許采用影印、縮巧件,允許査閱和借閱論文可1^內(nèi)容或其它復(fù)制手段保存論文。(保密論文在解密后遵守此規(guī)定);論文作者簽名:日期>^山年^月指導(dǎo)教巧簽名日期年月^杭州電子科技大

3、學(xué)碩士學(xué)位論文基于混合文本集的文本聚類方法研究研究生:林海榕指導(dǎo)教師:吳國華研究員2016年3月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterDocumentClusteringBasedonHybridTextCandidate:LinHairongSupervisor:Prof.WuGuohuaMarch,2016杭州電子科技大學(xué)碩士學(xué)位論文摘要文本聚類是在無監(jiān)督條件下對文本集進行劃分的過程。K-means算法作為劃分聚類中

4、最典型算法之一,具有算法簡單、伸縮性強的優(yōu)點,對于大規(guī)模文本集的聚類有較高的效率。但K-means算法在處理包含長文本和短文本的混合文本集時,由于提取特征向量維度要求一致,短文本提取信息冗余,長文本信息損失嚴重,導(dǎo)致聚類效果不佳。同時,文本集中孤立點的存在和初始中心點局部優(yōu)化的問題,也會影響聚類效果。為解決上述問題,通過研究和對比各類聚類算法,提出了三種改進算法:基于混合文本集的K-means文本聚類算法、基于距離的孤立點檢測改進算法、基于距離的初始中心點選擇改進算法。實驗表明,基于混合文本集的K-means文本聚

5、類算法,解決了處理混合文本集的問題,提升混合文本集的聚類性能,并加快算法的運行速率;基于距離的孤立點檢測改進算法,解決了在聚類前必須預(yù)設(shè)孤立點個數(shù)的問題,使在不提供孤立點個數(shù)的情況下,能夠準確地輸出孤立點,并分析出每個孤立點的孤立強弱程度;基于距離的初始點改進算法,解決了密度分布不均時初始中心點的問題,使在密度分布不均勻的文本集中,能夠輸出理想的初始中心點。關(guān)鍵詞:混合文本集、K-means算法、文本聚類、文本指紋I杭州電子科技大學(xué)碩士學(xué)位論文ABSTRACTDocumentclusteringistheproce

6、ssofgroupingsimilartextsintoasetofclusters.K-meansisthepartitioningclusteringmethodforitsefficiencyandsimplicityinclusteringlargedataset.However,ithasapoorclusteringeffectondealingwithahybridtextsetwhichcontainslongtextandshorttext.K-meansalgorithmrequiresthes

7、amedimensionoftheextractingfeaturevector,whichleadstotheredundancyofshorttext,andtheseriousmessagelossesoflongtext.Meanwhile,theexistenceofisolatedpointsintextsetandthelocaloptimizationofinitialcentroidsalsoaffecttheclusteringresult.Tosolvetheaboveproblems,thr

8、eeimprovedalgorithmswereproposed:K-meansclusteringalgorithmbasedonhybridtext,improvedalgorithmfordistance-basedoutliersdetection,andimprovedalgorithmfordistance-basedoptimizationof

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。