聚類分析在文本挖掘中的應(yīng)用與研究

ID：35095757

大?。?.67 MB

頁(yè)數(shù)：63頁(yè)

時(shí)間：2019-03-17

資源描述：

《聚類分析在文本挖掘中的應(yīng)用與研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、分類號(hào)密級(jí)碩士學(xué)位論文題目：聚類分析在文本挖掘中的應(yīng)用與研究英文并列題目：Cluster?Analysis?Application?andResearch?of?Text?Mining研究生：盛華專業(yè)：計(jì)算機(jī)科學(xué)與技術(shù)研究方向：計(jì)算機(jī)軟件與理論導(dǎo)師：張桂珠指導(dǎo)小組成員：學(xué)位授予日期：2016年6月答辯委員會(huì)主席：張曦煌江南大學(xué)地址：無(wú)錫市蠡湖大道1800號(hào)二○一六年六月摘要摘要Web2.0時(shí)代的到來(lái)，使得網(wǎng)絡(luò)上的文本信息呈現(xiàn)出爆炸性的增長(zhǎng)，人們?cè)趯?duì)互聯(lián)網(wǎng)上所需信息查閱整理所花費(fèi)的精力時(shí)間也越來(lái)越多，導(dǎo)致如何從這些海量有噪音的文本中及時(shí)準(zhǔn)確地搜索

2、到對(duì)用戶有用的信息已是一種迫不及待需要解決的問(wèn)題。在這種背景下，運(yùn)用文本聚類技術(shù)對(duì)海量文本信息進(jìn)行信息過(guò)濾和自動(dòng)歸檔，并且從這些信息中提取出主要的文本特征，可以大大地減少人工查閱整理文檔的工作量，提高文檔檢索的效率，是具有非常深遠(yuǎn)的應(yīng)用前景與現(xiàn)實(shí)意義。論文研究快速密度峰值搜索算法(CFSFDP)并對(duì)其進(jìn)行改進(jìn)，提出了基于勢(shì)能熵的快速密度峰值搜索算法(PE-CFSFDP)；并在此基礎(chǔ)上研究提出一種融合K-means和改進(jìn)的快速密度峰值搜索的算法，在UCI數(shù)據(jù)集以及搜狗文本語(yǔ)料庫(kù)上驗(yàn)證了改進(jìn)的文本聚類算法具有很好的穩(wěn)定性以及準(zhǔn)確率，詳細(xì)內(nèi)容如下：第

3、一，快速密度峰值搜索算法(CFSFDP)是基于密度的聚類算法，針對(duì)該算法對(duì)于截?cái)嗑嚯x的人工設(shè)置引發(fā)的局部密度計(jì)算問(wèn)題、對(duì)于小數(shù)據(jù)集算法聚類效果很差以及樣本歸類出現(xiàn)某一個(gè)樣本分配錯(cuò)誤引發(fā)的一連串的樣本分配錯(cuò)誤以及類簇中有樣本重疊等缺點(diǎn)。論文提出了一種數(shù)據(jù)域的勢(shì)能熵概念來(lái)自動(dòng)定義樣本局部密度度量函數(shù)的優(yōu)化算法(PE-CFSFDP)，根據(jù)勢(shì)能與熵的綜合指標(biāo)來(lái)客觀地確定截?cái)嗑嚯x，更加合理地計(jì)算了局部密度，使得聚類效果更加科學(xué)。第二，針對(duì)K-means算法隨機(jī)選取k個(gè)點(diǎn)作為初始聚類中心進(jìn)行迭代操作導(dǎo)致聚類結(jié)果的不穩(wěn)定，論文提出了一種融合了PE-CFSFD

4、P與K-means的K-CFSFDP聚類算法。利用PE-CFSFDP來(lái)進(jìn)行初始化操作刻畫(huà)聚類中心和自動(dòng)選取k值，彌補(bǔ)了k-means算法需提前給定聚類個(gè)數(shù)、初始聚類中心選取敏感和易陷入局部極小值等問(wèn)題。在UCI數(shù)據(jù)集和人工模擬數(shù)據(jù)集上實(shí)驗(yàn)表明，融合算法不僅能得到較好的聚類結(jié)果，而且聚類很穩(wěn)定。第三，論文采用了搜狗文本語(yǔ)料庫(kù)，通過(guò)中文分詞器分詞、去除停用詞和特征抽?。撛谡Z(yǔ)義索引）進(jìn)行文本預(yù)處理，然后按照TF?IDF來(lái)甄別特征詞的影響程度,從而建立VSM模型，并利用融合的K-CFSFDP算法進(jìn)行文本聚類，通過(guò)查準(zhǔn)率、召回率和F值對(duì)算法的聚類結(jié)果進(jìn)

5、行了比較與分析。實(shí)驗(yàn)表明改進(jìn)的聚類算法在文本挖掘應(yīng)用中的聚類效果、準(zhǔn)確性以及穩(wěn)定性方面都有很大的提升。關(guān)鍵詞：文本聚類；k-means算法；快速密度峰值搜索算法；文本挖掘IAbstractAbstractThe?arrival?of?Web2.0?era,?making?the?text?information?on?the?network?showing?explosive?growth,?people?in?the?information?required?on?the?Internet?to?organize?Now?it?takes?m

6、ore?and?more?energy?and?time,?lead?to?information?on?how?these?massive?noise?from?text?timely?and?accurately?search?for?information?useful?to?the?user?is?required?to?wait?one?kind?of?problem.?In?this?context,?the?use?of?text?clustering?technology?for?large?text?information?f

7、iltering?and?automatic?archiving,?and?extracts?the?main?text?feature?from?this?information,?can?greatly?reduce?the?manual?workload?Now?finishing?the?document,?improve?document?retrieval?efficiency?is?a?very?far-reaching?significance?and?application?prospects.?By?studying?the

8、?density?of?fast?peak?search?algorithm?(CFSFDP)?and?it?is?proposed?to?impro

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 63



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

聚類分析在文本挖掘中的應(yīng)用與研究

聚類分析在文本挖掘中的應(yīng)用與研究

相關(guān)文章

相關(guān)標(biāo)簽