一種基于語義相似度的文本聚類算法_孫爽.pdf

一種基于語義相似度的文本聚類算法_孫爽.pdf

ID:52768008

大小:180.67 KB

頁數(shù):5頁

時(shí)間:2020-03-30

一種基于語義相似度的文本聚類算法_孫爽.pdf_第1頁
一種基于語義相似度的文本聚類算法_孫爽.pdf_第2頁
一種基于語義相似度的文本聚類算法_孫爽.pdf_第3頁
一種基于語義相似度的文本聚類算法_孫爽.pdf_第4頁
一種基于語義相似度的文本聚類算法_孫爽.pdf_第5頁
資源描述:

《一種基于語義相似度的文本聚類算法_孫爽.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫

1、第38卷第6期南京航空航天大學(xué)學(xué)報(bào)Vol.38No.62006年12月JournalofNanjingUniversityofAeronautics&AstronauticsDec.2006一種基于語義相似度的文本聚類算法孫爽章勇(南京航空航天大學(xué)信息科學(xué)與技術(shù)學(xué)院,南京,210016)摘要:文本聚類在很多文本挖掘和信息檢索系統(tǒng)中發(fā)揮著重要的作用?,F(xiàn)有的聚類算法大多數(shù)都是基于向量空間模型,文檔集合中出現(xiàn)的單詞詞頻作為特征項(xiàng)。這些算法都存在數(shù)據(jù)維數(shù)過高、聚簇難以描述的問題,而且忽略了單詞間的語義聯(lián)系。本文提出

2、了一種基于語義相似度的文本聚類算法——TCUSS(Textclusteringusingsemanticsimilarity)算法。TCUSS算法將文檔表示成概念列表,有效地解決了數(shù)據(jù)維數(shù)高和聚簇描述難的問題,并給出如何利用概念列表進(jìn)行聚簇描述的方法。TCUSS算法利用兩個(gè)概念列表中單詞間的語義相似度作為文檔間相近程度的度量,并以圖為基礎(chǔ)進(jìn)行聚類分析,避免有些聚類算法對(duì)聚簇形狀的限制。實(shí)驗(yàn)證明,TCUSS算法提高了聚類質(zhì)量。關(guān)鍵詞:文本聚類;語義相似度;文本表示;語義相似度的文本聚類算法中圖分類號(hào):TP31

3、1文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1005-2615(2006)06-0712-05ClusteringMethodBasedonSemanticSimilaritySunShuang,ZhangYong(CollegeofInformationScienceandTechnology,NanjingUniversityofAeronautics&Astronautics,Nanjing,210016,China)Abstract:Commondocumentclusteringalgorithmsrelyonth

4、eso-calledvector-spacemodelusingtheitemfrequencyasthefeature.However,thesemethodsdonotreallyaddressthespecialproblemsoftextclustering:highdimensionalityofthedataandunderstandabilityoftheclusterdescription.Moreover,wordsmaybesemanticallyrelated—acrucialinfo

5、rmationforclusteringdoesnotconsidered.Anewdoc-umentclusteringmethodbasedonsemanticsimilarity—textclusteringusingsemanticsimilarity(TCUSS)isproposed.TCUSSalgorithmusesdocumentsasconceptliststosolvetheproblemsmen-tionedbeforeandgivesamethodhowtodescribethecl

6、ustersbyconceptlists.TCUSSalgorithmmea-suresthedocumentsimilaritybysemanticsimilarityofconceptsinconceptlists,thenclustersthedocu-mentbasedongraphanalysis,thusavoidingtherestrictofclustersshape.ExperimentalresultsprovethatTCUSSalgorithmimprovesthequalityof

7、theclusters.Keywords:textclustering;semanticsimilarity;textrepresentation;textclusteringusingsemanticsim-ilarity(TCUSS)algorithm文檔等。因此,文本聚類研究成為數(shù)據(jù)挖掘的一個(gè)引言非常重要的課題。與以往的聚類應(yīng)用相比,文本聚[1]文本聚類在很多文本挖掘和信息檢索系統(tǒng)中類主要有3個(gè)方面的挑戰(zhàn):發(fā)揮著重要的作用。快速和高質(zhì)量的文本聚類技術(shù)(1)非常高的數(shù)據(jù)維數(shù):這要求聚類算法能夠可以將大量

8、信息組織成少數(shù)有意義的簇,這種技術(shù)處理稀疏矩陣,或者對(duì)矩陣降維??梢愿纳茩z索性能、提供導(dǎo)航/瀏覽機(jī)制、發(fā)現(xiàn)相似(2)數(shù)據(jù)庫規(guī)??赡芊浅4?例如萬維網(wǎng)):因收稿日期:2006-07-07;修訂日期:2006-09-22作者簡(jiǎn)介:孫爽,女,碩士研究生,1982年11月生;章勇(聯(lián)系人),男,副教授,E-mail:zy88@263.net。第6期孫爽,等:一種基于語義相似度的文本聚類算法713此,聚類算法對(duì)大型數(shù)據(jù)庫也

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。