資源描述:
《som聚類算法改進(jìn)及其在文本挖掘中應(yīng)用的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、南京航空航天大學(xué)碩士學(xué)位論文SOM聚類算法的改進(jìn)及其在文本挖掘中的應(yīng)用研究姓名:蔡麗宏申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):管理科學(xué)與工程指導(dǎo)教師:馬靜2011-03南京航空航天大學(xué)碩士學(xué)位論文摘要情報(bào)是國(guó)防的靈魂,關(guān)系到一個(gè)國(guó)家的安危及進(jìn)步。而迅速發(fā)展的互聯(lián)網(wǎng)為國(guó)防新聞的搜集提供了最及時(shí)、最重要的來(lái)源。但是由于互聯(lián)網(wǎng)上的情報(bào)信息大多以半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的自由文本的形式存在,而且數(shù)量之大,讓人無(wú)法形容,導(dǎo)致情報(bào)人員容易在“數(shù)據(jù)海洋”、“信息迷霧”中迷失。因此有必要實(shí)現(xiàn)一個(gè)文本挖掘系統(tǒng)幫助情報(bào)人員自動(dòng)進(jìn)行分類、聚類信息,進(jìn)而快速?gòu)闹刑崛〕鲇行閳?bào)。文本聚類是文本挖掘中最基本、也是最重要的功能,
2、因此在實(shí)現(xiàn)該文本挖掘系統(tǒng)時(shí),關(guān)鍵的問(wèn)題是如何進(jìn)行文本聚類以及如何提高聚類的效率。本文先分析了文本聚類的研究背景、國(guó)內(nèi)外研究現(xiàn)狀,再介紹了文本聚類的相關(guān)基礎(chǔ)理論,包括文本挖掘的理論和文本聚類的相關(guān)關(guān)鍵技術(shù),著重介紹了自組織映射神經(jīng)網(wǎng)絡(luò)SOM聚類算法的工作原理、基本流程,并分析出SOM的優(yōu)缺點(diǎn)。針對(duì)SOM聚類算法的缺點(diǎn),從兩方面對(duì)應(yīng)提出改進(jìn)方案,即一方面是針對(duì)傳統(tǒng)上基于向量空間模型表示的輸入向量存在高維稀疏及缺乏語(yǔ)義支持的問(wèn)題,提出基于領(lǐng)域本體將文本表示成主題概念向量;另一個(gè)方面是針對(duì)聚類過(guò)程中傳統(tǒng)上采用全失真搜索最鄰近結(jié)點(diǎn)的乘法運(yùn)算量過(guò)高導(dǎo)致聚類時(shí)間過(guò)長(zhǎng)的問(wèn)題,提出部分失真方法,早
3、期拒絕不可能的候選獲勝神經(jīng)元,避免不必要的計(jì)算,降低計(jì)算時(shí)的乘法運(yùn)算量,提高了聚類速度。最后,將改進(jìn)后的SOM算法應(yīng)用于國(guó)防文本挖掘中,以實(shí)驗(yàn)驗(yàn)證其有效性及相對(duì)于原始的SOM算法的優(yōu)越性。關(guān)鍵詞:Web文本挖掘、文本聚類,SOM聚類算法,本體I一種SOM聚類算法的改進(jìn)及其在Web文本挖掘中的應(yīng)用研究AbstractIntelligenceisthesoulofnationaldefense,Itisassociatewithacountry'ssafetyandprogress.TherapiddevelopmentoftheInternetprovidesthemosttime
4、lyandmostimportantsourceforcollectingintelligenceofnationaldefense.However,duetointelligenceinformationontheInternetexistmostlyintheformofsemi-structuredorunstructuredformoffreetext,andthenumbertoolargetodescribe,thiseasilymakespeopleinthelostof"dataOcean","informationfog".Thereforeitisnecess
5、arytoimplementatextminingsystemtohelppeopleclassifyandclusteringinformationautomatically,andthenextractthevalidinformationquickly.Textclusteringisthemostbasicandthemostimportantfunctionoftextmining.sointherealizationofthetextminingsystem,thekeyquestionishowtotextclusteringandhowtoimprovetheef
6、ficiencyofclustering.Thisthesisfirstanalyzestheresearchbackgroundandresearchstatusoftextclustering,andthenintroducesthebasictheoriesrelatedtothetextclustering,includingthetheoryoftextminingandkeytechnologiesoftextclustering,highlightingsworkprincipleandbasicprocessofSOMneuralnetwork,analyzest
7、headvantagesanddisadvantagesofSOM.ForthedisadvantagesoftheSOMclusteringalgorithm,thisthesisproposedcorrespondingimprovementprogramintwoways.Ontheonehand,thetraditionalinputvectorbasedonvectorspacemodelhastheproblemofsparseandhighlatitudesandt