復(fù)雜數(shù)據(jù)類型的挖掘

復(fù)雜數(shù)據(jù)類型的挖掘

ID:37747365

大?。?52.60 KB

頁數(shù):42頁

時間:2019-05-30

復(fù)雜數(shù)據(jù)類型的挖掘_第1頁
復(fù)雜數(shù)據(jù)類型的挖掘_第2頁
復(fù)雜數(shù)據(jù)類型的挖掘_第3頁
復(fù)雜數(shù)據(jù)類型的挖掘_第4頁
復(fù)雜數(shù)據(jù)類型的挖掘_第5頁
資源描述:

《復(fù)雜數(shù)據(jù)類型的挖掘》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、Chapter10: 復(fù)雜數(shù)據(jù)類型的挖掘廣東商學(xué)院信息學(xué)院胡建軍數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1/93CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘2/72CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘3/72數(shù)據(jù)挖掘的對象簡單數(shù)據(jù)關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、數(shù)據(jù)倉庫復(fù)雜類型數(shù)據(jù)復(fù)雜對象、空間數(shù)據(jù)、多媒體數(shù)據(jù)、時間序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)等挖掘技術(shù):基本挖掘技術(shù)的擴展針對復(fù)雜數(shù)據(jù)類型的新

2、技術(shù)實施知識挖掘的方法4/72復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘商品化數(shù)據(jù)倉庫和OLAP工具用于多維分析的局限:維———非數(shù)字數(shù)據(jù)度量———聚集值復(fù)雜數(shù)據(jù)對象的概化及其概化數(shù)據(jù)的應(yīng)用復(fù)雜數(shù)據(jù)的組織及存儲方法類、類/子類對象:對象標識、屬性、方法5/72復(fù)雜結(jié)構(gòu)數(shù)據(jù)的概化復(fù)雜結(jié)構(gòu)數(shù)據(jù):集合、元組、列表、樹、記錄等及其組合;概化方法:保持原結(jié)構(gòu)不變,概化其屬性把原結(jié)構(gòu)扁平化,概化扁平化的結(jié)構(gòu)用高層概念或聚集匯總低沉結(jié)構(gòu)返回原結(jié)構(gòu)的類型或概貌6/72集合值集合值一般概化方法:將集合中的每個值概化為其對應(yīng)的更高級別的概念導(dǎo)出集合的一般特征(元素個數(shù)、區(qū)間、平均值、最

3、大值等)示例:業(yè)余愛好{網(wǎng)球,曲棍球,國際象棋,小提琴,任天堂游戲}概化:{體育,音樂,電子游戲}{體育(3),音樂(1),電子游戲(1)}7/72列表值/序列值列表值/序列值類似于集合值屬性的概化,要求保持元素的次序。一般概化方法:將列表中的每個值概化為對應(yīng)的高層概念導(dǎo)出列表的一般特征(長度、元素類型、平均值、最大值等)8/72空間和多媒體數(shù)據(jù)的概化聚集和近似計算空間數(shù)據(jù)例:土地規(guī)劃多媒體數(shù)據(jù)圖像:尺寸、顏色、形狀、紋理、方位等音樂:音調(diào)、節(jié)拍、樂器等文本:摘要、關(guān)鍵詞等9/72對象的概化對象標識符沿類/子類層次結(jié)構(gòu)概化繼承特性數(shù)據(jù)概化對直接數(shù)據(jù)與繼承數(shù)據(jù)

4、同等對待方法方法本身不能概化,但是可以對方法導(dǎo)出的數(shù)據(jù)進行概化10/72CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘11/72空間數(shù)據(jù)庫挖掘空間數(shù)據(jù)庫及其一般特點存儲了大量與空間有關(guān)的數(shù)據(jù)包含拓撲/距離信息復(fù)雜的、多維的索引結(jié)構(gòu)訪問通過空間數(shù)據(jù)的方法,通常需要空間推理、地理計算、空間知識表示技術(shù)空間數(shù)據(jù)挖掘:要綜合數(shù)據(jù)挖掘與空間數(shù)據(jù)庫技術(shù)12/72空間數(shù)據(jù)庫挖掘傳統(tǒng)空間數(shù)據(jù)分析(統(tǒng)計方法)的不足統(tǒng)計方法通常假設(shè)空間分布的數(shù)據(jù)間是統(tǒng)計上獨立的,但現(xiàn)實是空間對象間是相互

5、關(guān)聯(lián)的;大部分統(tǒng)計模型只有具有相當豐富領(lǐng)域知識和統(tǒng)計方面經(jīng)驗的統(tǒng)計專家才用得起來;統(tǒng)計方法不適用符號值,或不完整或非確定的數(shù)據(jù),對大規(guī)模數(shù)據(jù)庫其計算代價也十分昂貴??臻g數(shù)據(jù)挖掘?qū)鹘y(tǒng)的空間分析方法加以擴展,重點解決其高效性,可伸縮性,與數(shù)據(jù)庫系統(tǒng)的緊密結(jié)合,改進與用戶的交互,以及新的知識的發(fā)現(xiàn)。13/72空間關(guān)聯(lián)分析空間關(guān)聯(lián)規(guī)則形如:A?B[s%,c%]其中A和B空間和非空間謂詞的集合,s%表示規(guī)則的支持度,c%表示規(guī)則的的可信度。例:Is_a(X,”school”)∧close_to(X,“sports_center”)?close_to(X,“park

6、”)[0.5%,80%]此規(guī)則表明80%靠近體育中心的學(xué)校同時也靠近公園,并且有0。5%的數(shù)據(jù)符合這一規(guī)則。14/72空間聚類方法空間數(shù)據(jù)聚類是要在一個較大的多維數(shù)據(jù)集中根據(jù)距離的計算找出簇,或稠密區(qū)域。15/72空間分類和空間趨勢分析空間分類指分析空間對象導(dǎo)出與一定空間特征有關(guān)的分類模式,如郊區(qū),高速公路,河流的鄰接??臻g趨勢分析處理的是另一類問題:根據(jù)某空間維找出變化趨勢。例如,當離城市中心越來越遠時,我們要分析經(jīng)濟形勢的變化趨勢,或離海洋越來越遠時,氣候與植物的變化趨勢。16/72CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖

7、掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘17/72多媒體數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫是指存儲和管理大量多媒體對象的數(shù)據(jù)庫,如音頻數(shù)據(jù),圖象數(shù)據(jù),視頻數(shù)據(jù),序列數(shù)據(jù),以及超文本數(shù)據(jù),包含文本,文本標記(textmarkup),和鏈接(linkage)。多媒體數(shù)據(jù)的相似搜索主要考慮兩種多媒體標引和檢索系統(tǒng):(1)基于描述的檢索系統(tǒng),主要是在圖象描述之上建立標引和執(zhí)行對象檢索,如關(guān)鍵字,標題,尺寸,創(chuàng)建時間等;(2)基于內(nèi)容的檢索系統(tǒng),它支持基于圖象內(nèi)容的檢索,如顏色構(gòu)成,質(zhì)地,形狀,對象,和小波變換等。多媒體數(shù)據(jù)的分類和預(yù)測分析多媒體數(shù)據(jù)中的

8、關(guān)聯(lián)規(guī)則挖掘18/72CourseOutline復(fù)雜

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。