基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型

基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型

ID:10272328

大?。?88.00 KB

頁(yè)數(shù):9頁(yè)

時(shí)間:2018-06-14

基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型_第1頁(yè)
基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型_第2頁(yè)
基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型_第3頁(yè)
基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型_第4頁(yè)
基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型_第5頁(yè)
資源描述:

《基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、目錄摘要1關(guān)鍵詞1Abstract1Keywords2引言21語(yǔ)義相似度22空間數(shù)據(jù)挖掘模型32.1空間數(shù)據(jù)挖掘概述32.2當(dāng)前幾種主要的空間數(shù)據(jù)挖掘模型43基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型53.1語(yǔ)義相似度對(duì)數(shù)據(jù)的操作與處理63.2空間數(shù)據(jù)的挖掘方法7結(jié)語(yǔ)7參考文獻(xiàn)78基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型姓名:***學(xué)號(hào):**********學(xué)院:城市與環(huán)境科學(xué)學(xué)院專業(yè):地理信息系統(tǒng)指導(dǎo)老師:***職稱:副教授摘要:本文在分析當(dāng)前兩大主流數(shù)據(jù)挖掘模型及語(yǔ)義相似度常用計(jì)算方法的基礎(chǔ)上,論述了空間數(shù)據(jù)挖掘與語(yǔ)義相似度的集成模式,并結(jié)合語(yǔ)義相似度的計(jì)算方法和數(shù)據(jù)挖掘的現(xiàn)狀,探討

2、了基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型,并簡(jiǎn)要分析了該模型的各個(gè)模塊和基于此模型的空間數(shù)據(jù)挖掘的過(guò)程。關(guān)鍵詞:語(yǔ)義相似度;SDM;空間數(shù)據(jù)挖掘模型;GISASpatialdataminingmodelbasedonsemanticsimilarityAbstract:Basedontheanalysisofthecurrenttwobigmainstreamcommonlyuseddataminingmodelsandsemanticsimilaritycalculationmethod,onthebasisofdiscussestheintegrationofspatia

3、ldataminingandsemanticsimilaritymodel,andcombiningthesemanticsimilaritycalculationmethodandthecurrentsituationofdatamining,discussedthemodelofspatialdataminingbasedonsemanticsimilarity,andthebriefanalysisofthevariousmodulesofthemodelandprocessofspatialdataminingbasedonthismodel.Keywords:

4、Semanticsimilarity;SDM;Spatialdataminingmodel;GIS引言隨著信息時(shí)代的到來(lái),各種各樣的信息飛速增長(zhǎng),在這個(gè)知識(shí)爆炸的時(shí)代,如何從浩如煙海的信息中找出對(duì)自己有用的信息并加以分析、利用,是目前擺在數(shù)據(jù)挖掘領(lǐng)域的主要課題。數(shù)據(jù)挖掘從出現(xiàn)到現(xiàn)在只短短二十多年的時(shí)間,而空間數(shù)據(jù)挖掘則更年輕,但數(shù)據(jù)挖掘根據(jù)應(yīng)用的具體需要而產(chǎn)生,因此一經(jīng)出現(xiàn)就顯示出強(qiáng)大的生命力。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)是基于數(shù)據(jù)倉(cāng)庫(kù),這類數(shù)據(jù)倉(cāng)庫(kù)通常有上百個(gè)屬性和數(shù)萬(wàn)個(gè)記錄,并且數(shù)據(jù)表之間包含復(fù)雜的關(guān)系,這就必然導(dǎo)致數(shù)據(jù)挖掘過(guò)程中搜索維數(shù)和搜索空間的激增,同時(shí)也增加了不確定性

5、和錯(cuò)誤模式出現(xiàn)的可能性。8語(yǔ)義相似度是指不同詞語(yǔ)間的可替代程度,本文將在充分分析語(yǔ)義相似度和空間數(shù)據(jù)挖掘等理論的基礎(chǔ)上,提出一個(gè)基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型。1語(yǔ)義相似度語(yǔ)義相似度是指不同詞語(yǔ)之間的可替代程度,國(guó)內(nèi)學(xué)者劉群等對(duì)語(yǔ)義相似度的定義是兩個(gè)詞語(yǔ)在不同的上下文中可以互相替換使用而不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度。即若兩個(gè)不同詞語(yǔ)在上下文中互相替換且不改變文本的句法語(yǔ)義結(jié)構(gòu)程度的可能性越大,那么這兩個(gè)詞語(yǔ)的相關(guān)性越高,反之越低。度量?jī)蓚€(gè)詞語(yǔ)關(guān)系的另一個(gè)重要指標(biāo)是詞語(yǔ)的相關(guān)度。詞語(yǔ)相關(guān)度是指兩個(gè)詞語(yǔ)在同一語(yǔ)境共現(xiàn)的可能性,它反映了兩個(gè)詞語(yǔ)的相互關(guān)聯(lián)程度??梢哉J(rèn)為,語(yǔ)

6、義相似度反映概念之間的聚合特點(diǎn),而詞語(yǔ)相關(guān)度則反映概念之間的組合特點(diǎn)。DekangLira認(rèn)為任何兩個(gè)詞語(yǔ)的相似度取決于它們的共性(Commonality)和個(gè)性(Differences),然后從信息論的角度給出了定義公式:(1)其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。劉群、李素建以基于實(shí)例的機(jī)器翻譯為背景,認(rèn)為語(yǔ)義相似度就是兩個(gè)詞語(yǔ)在不同的上下文中可以互相替換使用而不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度。兩個(gè)詞語(yǔ),如果在不同的上下文中可以互相替換且不改變文本的句法語(yǔ)義結(jié)構(gòu)的可能性越大,二者的相似度就越高,否則相似度就越低。對(duì)于兩個(gè)詞

7、語(yǔ),如果記其相似度為Sim(),其詞語(yǔ)距離為Dis(),根據(jù)劉群、李素建的公式:(2)其中是一個(gè)可調(diào)節(jié)的參數(shù)。的含義是:當(dāng)相似度為0.5時(shí)的詞語(yǔ)距離值。詞語(yǔ)距離和詞語(yǔ)相似度是一對(duì)詞語(yǔ)的相同關(guān)系特征的不同表現(xiàn)形式,如果兩個(gè)概念之間的語(yǔ)義距離越近,就認(rèn)為它們?cè)较嗨?,因此二者之問(wèn)可以給出一個(gè)簡(jiǎn)單對(duì)應(yīng)關(guān)系:(3)其中,Dis()為樹(shù)中所代表的結(jié)點(diǎn)在樹(shù)中的距離,k為比例系數(shù)。一般地說(shuō),相似度一般被定義為一個(gè)0到1之間的實(shí)數(shù)。特別地,當(dāng)兩個(gè)詞語(yǔ)完全一樣時(shí),它們的相似度為1;當(dāng)兩個(gè)詞語(yǔ)是完全不同的概念時(shí),它們的相似度接近于0。詞語(yǔ)距離有兩類常見(jiàn)的計(jì)算

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。