一種基于語義相似度的文本聚類算法_孫爽.pdf

一種基于語義相似度的文本聚類算法_孫爽.pdf

ID:52768008

大小:180.67 KB

頁數(shù):5頁

時間:2020-03-30

一種基于語義相似度的文本聚類算法_孫爽.pdf_第1頁
一種基于語義相似度的文本聚類算法_孫爽.pdf_第2頁
一種基于語義相似度的文本聚類算法_孫爽.pdf_第3頁
一種基于語義相似度的文本聚類算法_孫爽.pdf_第4頁
一種基于語義相似度的文本聚類算法_孫爽.pdf_第5頁
資源描述:

《一種基于語義相似度的文本聚類算法_孫爽.pdf》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、第38卷第6期南京航空航天大學(xué)學(xué)報Vol.38No.62006年12月JournalofNanjingUniversityofAeronautics&AstronauticsDec.2006一種基于語義相似度的文本聚類算法孫爽章勇(南京航空航天大學(xué)信息科學(xué)與技術(shù)學(xué)院,南京,210016)摘要:文本聚類在很多文本挖掘和信息檢索系統(tǒng)中發(fā)揮著重要的作用。現(xiàn)有的聚類算法大多數(shù)都是基于向量空間模型,文檔集合中出現(xiàn)的單詞詞頻作為特征項(xiàng)。這些算法都存在數(shù)據(jù)維數(shù)過高、聚簇難以描述的問題,而且忽略了單詞間的語義聯(lián)系。本文提出

2、了一種基于語義相似度的文本聚類算法——TCUSS(Textclusteringusingsemanticsimilarity)算法。TCUSS算法將文檔表示成概念列表,有效地解決了數(shù)據(jù)維數(shù)高和聚簇描述難的問題,并給出如何利用概念列表進(jìn)行聚簇描述的方法。TCUSS算法利用兩個概念列表中單詞間的語義相似度作為文檔間相近程度的度量,并以圖為基礎(chǔ)進(jìn)行聚類分析,避免有些聚類算法對聚簇形狀的限制。實(shí)驗(yàn)證明,TCUSS算法提高了聚類質(zhì)量。關(guān)鍵詞:文本聚類;語義相似度;文本表示;語義相似度的文本聚類算法中圖分類號:TP31

3、1文獻(xiàn)標(biāo)識碼:A文章編號:1005-2615(2006)06-0712-05ClusteringMethodBasedonSemanticSimilaritySunShuang,ZhangYong(CollegeofInformationScienceandTechnology,NanjingUniversityofAeronautics&Astronautics,Nanjing,210016,China)Abstract:Commondocumentclusteringalgorithmsrelyonth

4、eso-calledvector-spacemodelusingtheitemfrequencyasthefeature.However,thesemethodsdonotreallyaddressthespecialproblemsoftextclustering:highdimensionalityofthedataandunderstandabilityoftheclusterdescription.Moreover,wordsmaybesemanticallyrelated—acrucialinfo

5、rmationforclusteringdoesnotconsidered.Anewdoc-umentclusteringmethodbasedonsemanticsimilarity—textclusteringusingsemanticsimilarity(TCUSS)isproposed.TCUSSalgorithmusesdocumentsasconceptliststosolvetheproblemsmen-tionedbeforeandgivesamethodhowtodescribethecl

6、ustersbyconceptlists.TCUSSalgorithmmea-suresthedocumentsimilaritybysemanticsimilarityofconceptsinconceptlists,thenclustersthedocu-mentbasedongraphanalysis,thusavoidingtherestrictofclustersshape.ExperimentalresultsprovethatTCUSSalgorithmimprovesthequalityof

7、theclusters.Keywords:textclustering;semanticsimilarity;textrepresentation;textclusteringusingsemanticsim-ilarity(TCUSS)algorithm文檔等。因此,文本聚類研究成為數(shù)據(jù)挖掘的一個引言非常重要的課題。與以往的聚類應(yīng)用相比,文本聚[1]文本聚類在很多文本挖掘和信息檢索系統(tǒng)中類主要有3個方面的挑戰(zhàn):發(fā)揮著重要的作用??焖俸透哔|(zhì)量的文本聚類技術(shù)(1)非常高的數(shù)據(jù)維數(shù):這要求聚類算法能夠可以將大量

8、信息組織成少數(shù)有意義的簇,這種技術(shù)處理稀疏矩陣,或者對矩陣降維??梢愿纳茩z索性能、提供導(dǎo)航/瀏覽機(jī)制、發(fā)現(xiàn)相似(2)數(shù)據(jù)庫規(guī)??赡芊浅4?例如萬維網(wǎng)):因收稿日期:2006-07-07;修訂日期:2006-09-22作者簡介:孫爽,女,碩士研究生,1982年11月生;章勇(聯(lián)系人),男,副教授,E-mail:zy88@263.net。第6期孫爽,等:一種基于語義相似度的文本聚類算法713此,聚類算法對大型數(shù)據(jù)庫也

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。