資源描述:
《基于混合文本集的文本聚類(lèi)方法研究》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、碩士學(xué)位論文題目:基于混合文本集的文本聚類(lèi)方法研究研究生林海榕專(zhuān)業(yè)計(jì)算機(jī)軟件與理論指導(dǎo)教師吳國(guó)華研究員完成日期2016年3月抗航子科技大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說(shuō)明原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下.獨(dú)立進(jìn)巧研巧工作所?。崳姷玫某晒菊撐牟缓魏纹渌麄€(gè)人或集體己經(jīng)發(fā)表或撰寫(xiě)。除文中已經(jīng)注明引用的內(nèi)容外過(guò)的作品或成果。對(duì)本文的研巧做出重要扉巧的個(gè)人和集體,均己在文中■明確方式標(biāo)明。申請(qǐng)學(xué)位訟文與資料若有不實(shí)之化一,本人承擔(dān)切相關(guān)責(zé)任。論文作者簽名:卡論祇日
2、期;>〇山年^月!T曰學(xué)位論文使用授權(quán)說(shuō)明本人完全了解杭州電子科技大學(xué)關(guān)于保留和使用學(xué)位論文的規(guī)定-目P:研巧生在校攻工作的知識(shí)產(chǎn)權(quán)單位屬杭州電子科技大學(xué)?讀學(xué)位巧間論文。本人保證畢業(yè)離校后發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為抗掛電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)?。崳姟?,:學(xué)校^公布論文的全部或部分可臥允許采用影印、縮巧件,允許査閱和借閱論文可1^內(nèi)容或其它復(fù)制手段保存論文。(保密論文在解密后遵守此規(guī)定);論文作者簽名:日期>^山年^月指導(dǎo)教巧簽名日期年月^杭州電子科技大
3、學(xué)碩士學(xué)位論文基于混合文本集的文本聚類(lèi)方法研究研究生:林海榕指導(dǎo)教師:吳國(guó)華研究員2016年3月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterDocumentClusteringBasedonHybridTextCandidate:LinHairongSupervisor:Prof.WuGuohuaMarch,2016杭州電子科技大學(xué)碩士學(xué)位論文摘要文本聚類(lèi)是在無(wú)監(jiān)督條件下對(duì)文本集進(jìn)行劃分的過(guò)程。K-means算法作為劃分聚類(lèi)中
4、最典型算法之一,具有算法簡(jiǎn)單、伸縮性強(qiáng)的優(yōu)點(diǎn),對(duì)于大規(guī)模文本集的聚類(lèi)有較高的效率。但K-means算法在處理包含長(zhǎng)文本和短文本的混合文本集時(shí),由于提取特征向量維度要求一致,短文本提取信息冗余,長(zhǎng)文本信息損失嚴(yán)重,導(dǎo)致聚類(lèi)效果不佳。同時(shí),文本集中孤立點(diǎn)的存在和初始中心點(diǎn)局部?jī)?yōu)化的問(wèn)題,也會(huì)影響聚類(lèi)效果。為解決上述問(wèn)題,通過(guò)研究和對(duì)比各類(lèi)聚類(lèi)算法,提出了三種改進(jìn)算法:基于混合文本集的K-means文本聚類(lèi)算法、基于距離的孤立點(diǎn)檢測(cè)改進(jìn)算法、基于距離的初始中心點(diǎn)選擇改進(jìn)算法。實(shí)驗(yàn)表明,基于混合文本集的K-means文本聚
5、類(lèi)算法,解決了處理混合文本集的問(wèn)題,提升混合文本集的聚類(lèi)性能,并加快算法的運(yùn)行速率;基于距離的孤立點(diǎn)檢測(cè)改進(jìn)算法,解決了在聚類(lèi)前必須預(yù)設(shè)孤立點(diǎn)個(gè)數(shù)的問(wèn)題,使在不提供孤立點(diǎn)個(gè)數(shù)的情況下,能夠準(zhǔn)確地輸出孤立點(diǎn),并分析出每個(gè)孤立點(diǎn)的孤立強(qiáng)弱程度;基于距離的初始點(diǎn)改進(jìn)算法,解決了密度分布不均時(shí)初始中心點(diǎn)的問(wèn)題,使在密度分布不均勻的文本集中,能夠輸出理想的初始中心點(diǎn)。關(guān)鍵詞:混合文本集、K-means算法、文本聚類(lèi)、文本指紋I杭州電子科技大學(xué)碩士學(xué)位論文ABSTRACTDocumentclusteringistheproce
6、ssofgroupingsimilartextsintoasetofclusters.K-meansisthepartitioningclusteringmethodforitsefficiencyandsimplicityinclusteringlargedataset.However,ithasapoorclusteringeffectondealingwithahybridtextsetwhichcontainslongtextandshorttext.K-meansalgorithmrequiresthes
7、amedimensionoftheextractingfeaturevector,whichleadstotheredundancyofshorttext,andtheseriousmessagelossesoflongtext.Meanwhile,theexistenceofisolatedpointsintextsetandthelocaloptimizationofinitialcentroidsalsoaffecttheclusteringresult.Tosolvetheaboveproblems,thr
8、eeimprovedalgorithmswereproposed:K-meansclusteringalgorithmbasedonhybridtext,improvedalgorithmfordistance-basedoutliersdetection,andimprovedalgorithmfordistance-basedoptimizationof