聚類分析在文本挖掘中的應(yīng)用與研究

聚類分析在文本挖掘中的應(yīng)用與研究

ID:35095757

大小:5.67 MB

頁(yè)數(shù):63頁(yè)

時(shí)間:2019-03-17

聚類分析在文本挖掘中的應(yīng)用與研究_第1頁(yè)
聚類分析在文本挖掘中的應(yīng)用與研究_第2頁(yè)
聚類分析在文本挖掘中的應(yīng)用與研究_第3頁(yè)
聚類分析在文本挖掘中的應(yīng)用與研究_第4頁(yè)
聚類分析在文本挖掘中的應(yīng)用與研究_第5頁(yè)
資源描述:

《聚類分析在文本挖掘中的應(yīng)用與研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、分類號(hào)密級(jí)碩士學(xué)位論文題目:聚類分析在文本挖掘中的應(yīng)用與研究英文并列題目:Cluster?Analysis?Application?andResearch?of?Text?Mining研究生:盛華專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)研究方向:計(jì)算機(jī)軟件與理論導(dǎo)師:張桂珠指導(dǎo)小組成員:學(xué)位授予日期:2016年6月答辯委員會(huì)主席:張曦煌江南大學(xué)地址:無(wú)錫市蠡湖大道1800號(hào)二○一六年六月摘要摘要Web2.0時(shí)代的到來(lái),使得網(wǎng)絡(luò)上的文本信息呈現(xiàn)出爆炸性的增長(zhǎng),人們?cè)趯?duì)互聯(lián)網(wǎng)上所需信息查閱整理所花費(fèi)的精力時(shí)間也越來(lái)越多,導(dǎo)致如何從這些海量有噪音的文本中及時(shí)準(zhǔn)確地搜索

2、到對(duì)用戶有用的信息已是一種迫不及待需要解決的問題。在這種背景下,運(yùn)用文本聚類技術(shù)對(duì)海量文本信息進(jìn)行信息過濾和自動(dòng)歸檔,并且從這些信息中提取出主要的文本特征,可以大大地減少人工查閱整理文檔的工作量,提高文檔檢索的效率,是具有非常深遠(yuǎn)的應(yīng)用前景與現(xiàn)實(shí)意義。論文研究快速密度峰值搜索算法(CFSFDP)并對(duì)其進(jìn)行改進(jìn),提出了基于勢(shì)能熵的快速密度峰值搜索算法(PE-CFSFDP);并在此基礎(chǔ)上研究提出一種融合K-means和改進(jìn)的快速密度峰值搜索的算法,在UCI數(shù)據(jù)集以及搜狗文本語(yǔ)料庫(kù)上驗(yàn)證了改進(jìn)的文本聚類算法具有很好的穩(wěn)定性以及準(zhǔn)確率,詳細(xì)內(nèi)容如下:第

3、一,快速密度峰值搜索算法(CFSFDP)是基于密度的聚類算法,針對(duì)該算法對(duì)于截?cái)嗑嚯x的人工設(shè)置引發(fā)的局部密度計(jì)算問題、對(duì)于小數(shù)據(jù)集算法聚類效果很差以及樣本歸類出現(xiàn)某一個(gè)樣本分配錯(cuò)誤引發(fā)的一連串的樣本分配錯(cuò)誤以及類簇中有樣本重疊等缺點(diǎn)。論文提出了一種數(shù)據(jù)域的勢(shì)能熵概念來(lái)自動(dòng)定義樣本局部密度度量函數(shù)的優(yōu)化算法(PE-CFSFDP),根據(jù)勢(shì)能與熵的綜合指標(biāo)來(lái)客觀地確定截?cái)嗑嚯x,更加合理地計(jì)算了局部密度,使得聚類效果更加科學(xué)。第二,針對(duì)K-means算法隨機(jī)選取k個(gè)點(diǎn)作為初始聚類中心進(jìn)行迭代操作導(dǎo)致聚類結(jié)果的不穩(wěn)定,論文提出了一種融合了PE-CFSFD

4、P與K-means的K-CFSFDP聚類算法。利用PE-CFSFDP來(lái)進(jìn)行初始化操作刻畫聚類中心和自動(dòng)選取k值,彌補(bǔ)了k-means算法需提前給定聚類個(gè)數(shù)、初始聚類中心選取敏感和易陷入局部極小值等問題。在UCI數(shù)據(jù)集和人工模擬數(shù)據(jù)集上實(shí)驗(yàn)表明,融合算法不僅能得到較好的聚類結(jié)果,而且聚類很穩(wěn)定。第三,論文采用了搜狗文本語(yǔ)料庫(kù),通過中文分詞器分詞、去除停用詞和特征抽?。撛谡Z(yǔ)義索引)進(jìn)行文本預(yù)處理,然后按照TF?IDF來(lái)甄別特征詞的影響程度,從而建立VSM模型,并利用融合的K-CFSFDP算法進(jìn)行文本聚類,通過查準(zhǔn)率、召回率和F值對(duì)算法的聚類結(jié)果進(jìn)

5、行了比較與分析。實(shí)驗(yàn)表明改進(jìn)的聚類算法在文本挖掘應(yīng)用中的聚類效果、準(zhǔn)確性以及穩(wěn)定性方面都有很大的提升。關(guān)鍵詞:文本聚類;k-means算法;快速密度峰值搜索算法;文本挖掘IAbstractAbstractThe?arrival?of?Web2.0?era,?making?the?text?information?on?the?network?showing?explosive?growth,?people?in?the?information?required?on?the?Internet?to?organize?Now?it?takes?m

6、ore?and?more?energy?and?time,?lead?to?information?on?how?these?massive?noise?from?text?timely?and?accurately?search?for?information?useful?to?the?user?is?required?to?wait?one?kind?of?problem.?In?this?context,?the?use?of?text?clustering?technology?for?large?text?information?f

7、iltering?and?automatic?archiving,?and?extracts?the?main?text?feature?from?this?information,?can?greatly?reduce?the?manual?workload?Now?finishing?the?document,?improve?document?retrieval?efficiency?is?a?very?far-reaching?significance?and?application?prospects.?By?studying?the

8、?density?of?fast?peak?search?algorithm?(CFSFDP)?and?it?is?proposed?to?impro

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。