基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型

ID：10272328

大?。?88.00 KB

頁(yè)數(shù)：9頁(yè)

時(shí)間：2018-06-14

資源描述：

《基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、目錄摘要1關(guān)鍵詞1Abstract1Keywords2引言21語(yǔ)義相似度22空間數(shù)據(jù)挖掘模型32.1空間數(shù)據(jù)挖掘概述32.2當(dāng)前幾種主要的空間數(shù)據(jù)挖掘模型43基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型53.1語(yǔ)義相似度對(duì)數(shù)據(jù)的操作與處理63.2空間數(shù)據(jù)的挖掘方法7結(jié)語(yǔ)7參考文獻(xiàn)78基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型姓名：***學(xué)號(hào)：**********學(xué)院：城市與環(huán)境科學(xué)學(xué)院專業(yè)：地理信息系統(tǒng)指導(dǎo)老師：***職稱：副教授摘要：本文在分析當(dāng)前兩大主流數(shù)據(jù)挖掘模型及語(yǔ)義相似度常用計(jì)算方法的基礎(chǔ)上，論述了空間數(shù)據(jù)挖掘與語(yǔ)義相似度的集成模式，并結(jié)合語(yǔ)義相似度的計(jì)算方法和數(shù)據(jù)挖掘的現(xiàn)狀，探討

2、了基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型，并簡(jiǎn)要分析了該模型的各個(gè)模塊和基于此模型的空間數(shù)據(jù)挖掘的過(guò)程。關(guān)鍵詞：語(yǔ)義相似度；SDM；空間數(shù)據(jù)挖掘模型；GISASpatialdataminingmodelbasedonsemanticsimilarityAbstract:Basedontheanalysisofthecurrenttwobigmainstreamcommonlyuseddataminingmodelsandsemanticsimilaritycalculationmethod,onthebasisofdiscussestheintegrationofspatia

3、ldataminingandsemanticsimilaritymodel,andcombiningthesemanticsimilaritycalculationmethodandthecurrentsituationofdatamining,discussedthemodelofspatialdataminingbasedonsemanticsimilarity,andthebriefanalysisofthevariousmodulesofthemodelandprocessofspatialdataminingbasedonthismodel.Keywords:

4、Semanticsimilarity;SDM;Spatialdataminingmodel;GIS引言隨著信息時(shí)代的到來(lái)，各種各樣的信息飛速增長(zhǎng)，在這個(gè)知識(shí)爆炸的時(shí)代，如何從浩如煙海的信息中找出對(duì)自己有用的信息并加以分析、利用，是目前擺在數(shù)據(jù)挖掘領(lǐng)域的主要課題。數(shù)據(jù)挖掘從出現(xiàn)到現(xiàn)在只短短二十多年的時(shí)間，而空間數(shù)據(jù)挖掘則更年輕，但數(shù)據(jù)挖掘根據(jù)應(yīng)用的具體需要而產(chǎn)生，因此一經(jīng)出現(xiàn)就顯示出強(qiáng)大的生命力。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)是基于數(shù)據(jù)倉(cāng)庫(kù)，這類數(shù)據(jù)倉(cāng)庫(kù)通常有上百個(gè)屬性和數(shù)萬(wàn)個(gè)記錄，并且數(shù)據(jù)表之間包含復(fù)雜的關(guān)系，這就必然導(dǎo)致數(shù)據(jù)挖掘過(guò)程中搜索維數(shù)和搜索空間的激增，同時(shí)也增加了不確定性

5、和錯(cuò)誤模式出現(xiàn)的可能性。8語(yǔ)義相似度是指不同詞語(yǔ)間的可替代程度，本文將在充分分析語(yǔ)義相似度和空間數(shù)據(jù)挖掘等理論的基礎(chǔ)上，提出一個(gè)基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型。1語(yǔ)義相似度語(yǔ)義相似度是指不同詞語(yǔ)之間的可替代程度，國(guó)內(nèi)學(xué)者劉群等對(duì)語(yǔ)義相似度的定義是兩個(gè)詞語(yǔ)在不同的上下文中可以互相替換使用而不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度。即若兩個(gè)不同詞語(yǔ)在上下文中互相替換且不改變文本的句法語(yǔ)義結(jié)構(gòu)程度的可能性越大，那么這兩個(gè)詞語(yǔ)的相關(guān)性越高，反之越低。度量?jī)蓚€(gè)詞語(yǔ)關(guān)系的另一個(gè)重要指標(biāo)是詞語(yǔ)的相關(guān)度。詞語(yǔ)相關(guān)度是指兩個(gè)詞語(yǔ)在同一語(yǔ)境共現(xiàn)的可能性，它反映了兩個(gè)詞語(yǔ)的相互關(guān)聯(lián)程度?？梢哉J(rèn)為，語(yǔ)

6、義相似度反映概念之間的聚合特點(diǎn)，而詞語(yǔ)相關(guān)度則反映概念之間的組合特點(diǎn)。DekangLira認(rèn)為任何兩個(gè)詞語(yǔ)的相似度取決于它們的共性(Commonality)和個(gè)性(Differences)，然后從信息論的角度給出了定義公式：(1)其中，分子表示描述A，B共性所需要的信息量；分母表示完整地描述A，B所需要的信息量。劉群、李素建以基于實(shí)例的機(jī)器翻譯為背景，認(rèn)為語(yǔ)義相似度就是兩個(gè)詞語(yǔ)在不同的上下文中可以互相替換使用而不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度。兩個(gè)詞語(yǔ)，如果在不同的上下文中可以互相替換且不改變文本的句法語(yǔ)義結(jié)構(gòu)的可能性越大，二者的相似度就越高，否則相似度就越低。對(duì)于兩個(gè)詞

7、語(yǔ)，如果記其相似度為Sim()，其詞語(yǔ)距離為Dis()，根據(jù)劉群、李素建的公式：(2)其中是一個(gè)可調(diào)節(jié)的參數(shù)。的含義是：當(dāng)相似度為0.5時(shí)的詞語(yǔ)距離值。詞語(yǔ)距離和詞語(yǔ)相似度是一對(duì)詞語(yǔ)的相同關(guān)系特征的不同表現(xiàn)形式，如果兩個(gè)概念之間的語(yǔ)義距離越近，就認(rèn)為它們?cè)较嗨?，因此二者之問(wèn)可以給出一個(gè)簡(jiǎn)單對(duì)應(yīng)關(guān)系：(3)其中，Dis()為樹(shù)中所代表的結(jié)點(diǎn)在樹(shù)中的距離，k為比例系數(shù)。一般地說(shuō)，相似度一般被定義為一個(gè)0到1之間的實(shí)數(shù)。特別地，當(dāng)兩個(gè)詞語(yǔ)完全一樣時(shí)，它們的相似度為1；當(dāng)兩個(gè)詞語(yǔ)是完全不同的概念時(shí)，它們的相似度接近于0。詞語(yǔ)距離有兩類常見(jiàn)的計(jì)算

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 9



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型

基于語(yǔ)義相似度的空間數(shù)據(jù)挖掘模型

相關(guān)文章

相關(guān)標(biāo)簽