資源描述:
《基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、目錄摘要1關(guān)鍵詞1Abstract1Keywords2引言21語(yǔ)義相似度22空間數(shù)據(jù)挖掘模型32.1空間數(shù)據(jù)挖掘概述32.2當(dāng)前幾種主要的空間數(shù)據(jù)挖掘模型43基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型53.1語(yǔ)義相似度對(duì)數(shù)據(jù)的操作與處理63.2空間數(shù)據(jù)的挖掘方法7結(jié)語(yǔ)7參考文獻(xiàn)78基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型姓名:***學(xué)號(hào):**********學(xué)院:城市與環(huán)境科學(xué)學(xué)院專業(yè):地理信息系統(tǒng)指導(dǎo)老師:***職稱:副教授摘要:本文在分析當(dāng)前兩大主流數(shù)據(jù)挖掘模型及語(yǔ)義相似度常用計(jì)算方法的基礎(chǔ)上,論述了空間數(shù)據(jù)挖掘與語(yǔ)義相似度的集成模式,并結(jié)合語(yǔ)義相似度的計(jì)算方法和數(shù)據(jù)挖掘的現(xiàn)狀,探討
2、了基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型,并簡(jiǎn)要分析了該模型的各個(gè)模塊和基于此模型的空間數(shù)據(jù)挖掘的過(guò)程。關(guān)鍵詞:語(yǔ)義相似度;SDM;空間數(shù)據(jù)挖掘模型;GISASpatialdataminingmodelbasedonsemanticsimilarityAbstract:Basedontheanalysisofthecurrenttwobigmainstreamcommonlyuseddataminingmodelsandsemanticsimilaritycalculationmethod,onthebasisofdiscussestheintegrationofspatia
3、ldataminingandsemanticsimilaritymodel,andcombiningthesemanticsimilaritycalculationmethodandthecurrentsituationofdatamining,discussedthemodelofspatialdataminingbasedonsemanticsimilarity,andthebriefanalysisofthevariousmodulesofthemodelandprocessofspatialdataminingbasedonthismodel.Keywords:
4、Semanticsimilarity;SDM;Spatialdataminingmodel;GIS引言隨著信息時(shí)代的到來(lái),各種各樣的信息飛速增長(zhǎng),在這個(gè)知識(shí)爆炸的時(shí)代,如何從浩如煙海的信息中找出對(duì)自己有用的信息并加以分析、利用,是目前擺在數(shù)據(jù)挖掘領(lǐng)域的主要課題。數(shù)據(jù)挖掘從出現(xiàn)到現(xiàn)在只短短二十多年的時(shí)間,而空間數(shù)據(jù)挖掘則更年輕,但數(shù)據(jù)挖掘根據(jù)應(yīng)用的具體需要而產(chǎn)生,因此一經(jīng)出現(xiàn)就顯示出強(qiáng)大的生命力。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)是基于數(shù)據(jù)倉(cāng)庫(kù),這類數(shù)據(jù)倉(cāng)庫(kù)通常有上百個(gè)屬性和數(shù)萬(wàn)個(gè)記錄,并且數(shù)據(jù)表之間包含復(fù)雜的關(guān)系,這就必然導(dǎo)致數(shù)據(jù)挖掘過(guò)程中搜索維數(shù)和搜索空間的激增,同時(shí)也增加了不確定性
5、和錯(cuò)誤模式出現(xiàn)的可能性。8語(yǔ)義相似度是指不同詞語(yǔ)間的可替代程度,本文將在充分分析語(yǔ)義相似度和空間數(shù)據(jù)挖掘等理論的基礎(chǔ)上,提出一個(gè)基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型。1語(yǔ)義相似度語(yǔ)義相似度是指不同詞語(yǔ)之間的可替代程度,國(guó)內(nèi)學(xué)者劉群等對(duì)語(yǔ)義相似度的定義是兩個(gè)詞語(yǔ)在不同的上下文中可以互相替換使用而不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度。即若兩個(gè)不同詞語(yǔ)在上下文中互相替換且不改變文本的句法語(yǔ)義結(jié)構(gòu)程度的可能性越大,那么這兩個(gè)詞語(yǔ)的相關(guān)性越高,反之越低。度量?jī)蓚€(gè)詞語(yǔ)關(guān)系的另一個(gè)重要指標(biāo)是詞語(yǔ)的相關(guān)度。詞語(yǔ)相關(guān)度是指兩個(gè)詞語(yǔ)在同一語(yǔ)境共現(xiàn)的可能性,它反映了兩個(gè)詞語(yǔ)的相互關(guān)聯(lián)程度??梢哉J(rèn)為,語(yǔ)
6、義相似度反映概念之間的聚合特點(diǎn),而詞語(yǔ)相關(guān)度則反映概念之間的組合特點(diǎn)。DekangLira認(rèn)為任何兩個(gè)詞語(yǔ)的相似度取決于它們的共性(Commonality)和個(gè)性(Differences),然后從信息論的角度給出了定義公式:(1)其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。劉群、李素建以基于實(shí)例的機(jī)器翻譯為背景,認(rèn)為語(yǔ)義相似度就是兩個(gè)詞語(yǔ)在不同的上下文中可以互相替換使用而不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度。兩個(gè)詞語(yǔ),如果在不同的上下文中可以互相替換且不改變文本的句法語(yǔ)義結(jié)構(gòu)的可能性越大,二者的相似度就越高,否則相似度就越低。對(duì)于兩個(gè)詞
7、語(yǔ),如果記其相似度為Sim(),其詞語(yǔ)距離為Dis(),根據(jù)劉群、李素建的公式:(2)其中是一個(gè)可調(diào)節(jié)的參數(shù)。的含義是:當(dāng)相似度為0.5時(shí)的詞語(yǔ)距離值。詞語(yǔ)距離和詞語(yǔ)相似度是一對(duì)詞語(yǔ)的相同關(guān)系特征的不同表現(xiàn)形式,如果兩個(gè)概念之間的語(yǔ)義距離越近,就認(rèn)為它們?cè)较嗨?,因此二者之問(wèn)可以給出一個(gè)簡(jiǎn)單對(duì)應(yīng)關(guān)系:(3)其中,Dis()為樹(shù)中所代表的結(jié)點(diǎn)在樹(shù)中的距離,k為比例系數(shù)。一般地說(shuō),相似度一般被定義為一個(gè)0到1之間的實(shí)數(shù)。特別地,當(dāng)兩個(gè)詞語(yǔ)完全一樣時(shí),它們的相似度為1;當(dāng)兩個(gè)詞語(yǔ)是完全不同的概念時(shí),它們的相似度接近于0。詞語(yǔ)距離有兩類常見(jiàn)的計(jì)算