基于混合文本集的文本聚類(lèi)方法研究

ID：35178865

大?。?.47 MB

頁(yè)數(shù)：57頁(yè)

時(shí)間：2019-03-20

資源描述：

《基于混合文本集的文本聚類(lèi)方法研究》由會(huì)員上傳分享，免費(fèi)在線(xiàn)閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、碩士學(xué)位論文題目:基于混合文本集的文本聚類(lèi)方法研究研究生林海榕專(zhuān)業(yè)計(jì)算機(jī)軟件與理論指導(dǎo)教師吳國(guó)華研究員完成日期2016年3月抗航子科技大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說(shuō)明原創(chuàng)性聲明本人鄭重聲明：所呈交的學(xué)位論文，是本人在導(dǎo)師的指導(dǎo)下．獨(dú)立進(jìn)巧研巧工作所?。崳姷玫某晒菊撐牟缓魏纹渌麄€(gè)人或集體己經(jīng)發(fā)表或撰寫(xiě)。除文中已經(jīng)注明引用的內(nèi)容外過(guò)的作品或成果。對(duì)本文的研巧做出重要扉巧的個(gè)人和集體，均己在文中■明確方式標(biāo)明。申請(qǐng)學(xué)位訟文與資料若有不實(shí)之化一，本人承擔(dān)切相關(guān)責(zé)任。論文作者簽名：卡論祇日

2、期；＞〇山年＾月！Ｔ曰學(xué)位論文使用授權(quán)說(shuō)明本人完全了解杭州電子科技大學(xué)關(guān)于保留和使用學(xué)位論文的規(guī)定－目Ｐ：研巧生在校攻工作的知識(shí)產(chǎn)權(quán)單位屬杭州電子科技大學(xué)？讀學(xué)位巧間論文。本人保證畢業(yè)離校后發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為抗掛電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)?。崳姟?，：學(xué)校＾公布論文的全部或部分可臥允許采用影印、縮巧件，允許査閱和借閱論文可１＾內(nèi)容或其它復(fù)制手段保存論文。（保密論文在解密后遵守此規(guī)定）；論文作者簽名：日期＞＾山年＾月指導(dǎo)教巧簽名日期年月＾杭州電子科技大

3、學(xué)碩士學(xué)位論文基于混合文本集的文本聚類(lèi)方法研究研究生：林海榕指導(dǎo)教師：吳國(guó)華研究員2016年3月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterDocumentClusteringBasedonHybridTextCandidate:LinHairongSupervisor:Prof.WuGuohuaMarch,2016杭州電子科技大學(xué)碩士學(xué)位論文摘要文本聚類(lèi)是在無(wú)監(jiān)督條件下對(duì)文本集進(jìn)行劃分的過(guò)程。K-means算法作為劃分聚類(lèi)中

4、最典型算法之一，具有算法簡(jiǎn)單、伸縮性強(qiáng)的優(yōu)點(diǎn)，對(duì)于大規(guī)模文本集的聚類(lèi)有較高的效率。但K-means算法在處理包含長(zhǎng)文本和短文本的混合文本集時(shí)，由于提取特征向量維度要求一致，短文本提取信息冗余，長(zhǎng)文本信息損失嚴(yán)重，導(dǎo)致聚類(lèi)效果不佳。同時(shí)，文本集中孤立點(diǎn)的存在和初始中心點(diǎn)局部?jī)?yōu)化的問(wèn)題，也會(huì)影響聚類(lèi)效果。為解決上述問(wèn)題，通過(guò)研究和對(duì)比各類(lèi)聚類(lèi)算法，提出了三種改進(jìn)算法：基于混合文本集的K-means文本聚類(lèi)算法、基于距離的孤立點(diǎn)檢測(cè)改進(jìn)算法、基于距離的初始中心點(diǎn)選擇改進(jìn)算法。實(shí)驗(yàn)表明，基于混合文本集的K-means文本聚

5、類(lèi)算法，解決了處理混合文本集的問(wèn)題，提升混合文本集的聚類(lèi)性能，并加快算法的運(yùn)行速率；基于距離的孤立點(diǎn)檢測(cè)改進(jìn)算法，解決了在聚類(lèi)前必須預(yù)設(shè)孤立點(diǎn)個(gè)數(shù)的問(wèn)題，使在不提供孤立點(diǎn)個(gè)數(shù)的情況下，能夠準(zhǔn)確地輸出孤立點(diǎn)，并分析出每個(gè)孤立點(diǎn)的孤立強(qiáng)弱程度；基于距離的初始點(diǎn)改進(jìn)算法，解決了密度分布不均時(shí)初始中心點(diǎn)的問(wèn)題，使在密度分布不均勻的文本集中，能夠輸出理想的初始中心點(diǎn)。關(guān)鍵詞：混合文本集、K-means算法、文本聚類(lèi)、文本指紋I杭州電子科技大學(xué)碩士學(xué)位論文ABSTRACTDocumentclusteringistheproce

6、ssofgroupingsimilartextsintoasetofclusters.K-meansisthepartitioningclusteringmethodforitsefficiencyandsimplicityinclusteringlargedataset.However,ithasapoorclusteringeffectondealingwithahybridtextsetwhichcontainslongtextandshorttext.K-meansalgorithmrequiresthes

7、amedimensionoftheextractingfeaturevector,whichleadstotheredundancyofshorttext,andtheseriousmessagelossesoflongtext.Meanwhile,theexistenceofisolatedpointsintextsetandthelocaloptimizationofinitialcentroidsalsoaffecttheclusteringresult.Tosolvetheaboveproblems,thr

8、eeimprovedalgorithmswereproposed:K-meansclusteringalgorithmbasedonhybridtext,improvedalgorithmfordistance-basedoutliersdetection,andimprovedalgorithmfordistance-basedoptimizationof

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 57



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳，版權(quán)歸屬用戶(hù)，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。

基于混合文本集的文本聚類(lèi)方法研究

基于混合文本集的文本聚類(lèi)方法研究

相關(guān)文章

相關(guān)標(biāo)簽