som聚類算法改進(jìn)及其在文本挖掘中應(yīng)用的研究

som聚類算法改進(jìn)及其在文本挖掘中應(yīng)用的研究

ID:34226158

大?。?.87 MB

頁(yè)數(shù):68頁(yè)

時(shí)間:2019-03-04

som聚類算法改進(jìn)及其在文本挖掘中應(yīng)用的研究_第1頁(yè)
som聚類算法改進(jìn)及其在文本挖掘中應(yīng)用的研究_第2頁(yè)
som聚類算法改進(jìn)及其在文本挖掘中應(yīng)用的研究_第3頁(yè)
som聚類算法改進(jìn)及其在文本挖掘中應(yīng)用的研究_第4頁(yè)
som聚類算法改進(jìn)及其在文本挖掘中應(yīng)用的研究_第5頁(yè)
資源描述:

《som聚類算法改進(jìn)及其在文本挖掘中應(yīng)用的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、南京航空航天大學(xué)碩士學(xué)位論文SOM聚類算法的改進(jìn)及其在文本挖掘中的應(yīng)用研究姓名:蔡麗宏申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):管理科學(xué)與工程指導(dǎo)教師:馬靜2011-03南京航空航天大學(xué)碩士學(xué)位論文摘要情報(bào)是國(guó)防的靈魂,關(guān)系到一個(gè)國(guó)家的安危及進(jìn)步。而迅速發(fā)展的互聯(lián)網(wǎng)為國(guó)防新聞的搜集提供了最及時(shí)、最重要的來(lái)源。但是由于互聯(lián)網(wǎng)上的情報(bào)信息大多以半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的自由文本的形式存在,而且數(shù)量之大,讓人無(wú)法形容,導(dǎo)致情報(bào)人員容易在“數(shù)據(jù)海洋”、“信息迷霧”中迷失。因此有必要實(shí)現(xiàn)一個(gè)文本挖掘系統(tǒng)幫助情報(bào)人員自動(dòng)進(jìn)行分類、聚類信息,進(jìn)而快速?gòu)闹刑崛〕鲇行閳?bào)。文本聚類是文本挖掘中最基本、也是最重要的功能,

2、因此在實(shí)現(xiàn)該文本挖掘系統(tǒng)時(shí),關(guān)鍵的問(wèn)題是如何進(jìn)行文本聚類以及如何提高聚類的效率。本文先分析了文本聚類的研究背景、國(guó)內(nèi)外研究現(xiàn)狀,再介紹了文本聚類的相關(guān)基礎(chǔ)理論,包括文本挖掘的理論和文本聚類的相關(guān)關(guān)鍵技術(shù),著重介紹了自組織映射神經(jīng)網(wǎng)絡(luò)SOM聚類算法的工作原理、基本流程,并分析出SOM的優(yōu)缺點(diǎn)。針對(duì)SOM聚類算法的缺點(diǎn),從兩方面對(duì)應(yīng)提出改進(jìn)方案,即一方面是針對(duì)傳統(tǒng)上基于向量空間模型表示的輸入向量存在高維稀疏及缺乏語(yǔ)義支持的問(wèn)題,提出基于領(lǐng)域本體將文本表示成主題概念向量;另一個(gè)方面是針對(duì)聚類過(guò)程中傳統(tǒng)上采用全失真搜索最鄰近結(jié)點(diǎn)的乘法運(yùn)算量過(guò)高導(dǎo)致聚類時(shí)間過(guò)長(zhǎng)的問(wèn)題,提出部分失真方法,早

3、期拒絕不可能的候選獲勝神經(jīng)元,避免不必要的計(jì)算,降低計(jì)算時(shí)的乘法運(yùn)算量,提高了聚類速度。最后,將改進(jìn)后的SOM算法應(yīng)用于國(guó)防文本挖掘中,以實(shí)驗(yàn)驗(yàn)證其有效性及相對(duì)于原始的SOM算法的優(yōu)越性。關(guān)鍵詞:Web文本挖掘、文本聚類,SOM聚類算法,本體I一種SOM聚類算法的改進(jìn)及其在Web文本挖掘中的應(yīng)用研究AbstractIntelligenceisthesoulofnationaldefense,Itisassociatewithacountry'ssafetyandprogress.TherapiddevelopmentoftheInternetprovidesthemosttime

4、lyandmostimportantsourceforcollectingintelligenceofnationaldefense.However,duetointelligenceinformationontheInternetexistmostlyintheformofsemi-structuredorunstructuredformoffreetext,andthenumbertoolargetodescribe,thiseasilymakespeopleinthelostof"dataOcean","informationfog".Thereforeitisnecess

5、arytoimplementatextminingsystemtohelppeopleclassifyandclusteringinformationautomatically,andthenextractthevalidinformationquickly.Textclusteringisthemostbasicandthemostimportantfunctionoftextmining.sointherealizationofthetextminingsystem,thekeyquestionishowtotextclusteringandhowtoimprovetheef

6、ficiencyofclustering.Thisthesisfirstanalyzestheresearchbackgroundandresearchstatusoftextclustering,andthenintroducesthebasictheoriesrelatedtothetextclustering,includingthetheoryoftextminingandkeytechnologiesoftextclustering,highlightingsworkprincipleandbasicprocessofSOMneuralnetwork,analyzest

7、headvantagesanddisadvantagesofSOM.ForthedisadvantagesoftheSOMclusteringalgorithm,thisthesisproposedcorrespondingimprovementprogramintwoways.Ontheonehand,thetraditionalinputvectorbasedonvectorspacemodelhastheproblemofsparseandhighlatitudesandt

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。