基于網(wǎng)格模型的孤立點檢測算法

基于網(wǎng)格模型的孤立點檢測算法

ID:33388177

大?。?.28 MB

頁數(shù):48頁

時間:2019-02-25

基于網(wǎng)格模型的孤立點檢測算法_第1頁
基于網(wǎng)格模型的孤立點檢測算法_第2頁
基于網(wǎng)格模型的孤立點檢測算法_第3頁
基于網(wǎng)格模型的孤立點檢測算法_第4頁
基于網(wǎng)格模型的孤立點檢測算法_第5頁
資源描述:

《基于網(wǎng)格模型的孤立點檢測算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、山東大學(xué)碩士學(xué)位論文基于網(wǎng)格模型的孤立點檢測算法姓名:閆宗奎申請學(xué)位級別:碩士專業(yè):計算機軟件與理論指導(dǎo)教師:石冰20090405山東大學(xué)碩士學(xué)位論文摘要數(shù)據(jù)挖掘技術(shù)是從上個世紀(jì)80年代開始發(fā)展起來的一門新技術(shù),就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。而孤立點分析是數(shù)據(jù)挖掘中的重要研究方面之一,其作用就是發(fā)現(xiàn)數(shù)據(jù)中的“小模式’’,即數(shù)據(jù)集中顯著不同于其它數(shù)據(jù)的對象。經(jīng)過近20年的發(fā)展,數(shù)據(jù)挖掘技術(shù)在理論研究上日趨成熟,正不斷的擴展其應(yīng)用范圍,當(dāng)前數(shù)據(jù)挖掘已用于電信、金融、商業(yè)、

2、氣象預(yù)報、DNA、股票市場、入侵檢測和客戶分類等許多領(lǐng)域。因此,本文首先研究了基于單元的孤立點發(fā)現(xiàn)算法,指出了其存在的缺點:其次,提出了一種基于網(wǎng)格模型的孤立點檢測算法。本文的主要工作可以概括為以下五個方面:(1)從孤立點挖掘的現(xiàn)實意義、算法、應(yīng)用領(lǐng)域、挖掘工具、算法的評價等各個方面對孤立點挖掘問題進行了綜述。(2)針對已有檢測方法的不足,本文提出了一個新的孤立點檢測方法,通過對數(shù)據(jù)集的網(wǎng)格劃分與數(shù)據(jù)模型的轉(zhuǎn)換來判別異常,從而有效提高算法的效率。.(3)設(shè)計了基于網(wǎng)格的檢測算法,給出了數(shù)據(jù)空間的網(wǎng)格劃分,定義了網(wǎng)格內(nèi)孤立點存在性閾值,提出了基于網(wǎng)格的孤立點檢測算法

3、,在保證算法的有效性的前提下,降低了算法的時間復(fù)雜度。(4)實現(xiàn)了一個異常檢測實驗平臺ED(ElninoDetector),其中集成了所提出的算法,為異常檢測提供了一個分析工具。所提供的數(shù)據(jù)接口能夠從標(biāo)準(zhǔn)Elnino數(shù)據(jù)集中獲取數(shù)據(jù),并進行相應(yīng)的數(shù)據(jù)瀏覽和分析。(5)結(jié)合氣候數(shù)據(jù)收集的特點,探討了使用異常檢測來檢測氣候的必要性和方法。本文的研究目的是構(gòu)建一個使用本文的算法從真實數(shù)據(jù)中檢測異常數(shù)據(jù)實驗平臺,主要包括幾個方面:1.給出數(shù)據(jù)空間的網(wǎng)格劃分;2.定義網(wǎng)格內(nèi)孤立點存在性閾值;3.提出了基于網(wǎng)格的孤立點檢測算法;山東大學(xué)碩士學(xué)位論文4.基于真實數(shù)據(jù)的算法驗證。

4、本文實現(xiàn)了一個基于EclipseRCP的試驗平臺,通過對Elnino數(shù)據(jù)集的檢測結(jié)果,對本文提出的算法進行了驗證。試驗結(jié)果表明,該算法能夠得到比較好的孤立點分析結(jié)果。最后,對本文的工作進行了總結(jié)和對研究前景的展望。關(guān)鍵詞:數(shù)據(jù)挖掘;孤立點:網(wǎng)格模型II山東大學(xué)碩士學(xué)位論文ABSTRACTDataMiningisanewtechniquedevelopedfrom1980s.Itaimstoextracttheimplicit,unknown,andpotentiallyusefulknowledgefromvoluminous,non—complete,fuzzy

5、,stochasticdata.Outliers’analysisisallimportantpartofdataminingresearch.Itspurposeistofindthe”smallpatterns“fromdataset.Anoutlierisallobjectthatisconsiderablydissimilarorinconsistent、7l,iththeremainderofthedata.After20yearsofdevelopment,onthetheory,dataminingtechniquesisbecomingmorean

6、dmoreconsummateandisexpandingitsapplicationarea.Now,datamininghasbeenusedintelecom,finance,busyness,weatherforecast,DNA,stockmarket,intrusiondetectionandcustomersegmentationetc.Sointhispaperwefirstresearchthealgorithmofoutlierdetectionbasedcell,pointoutitsshortcomings,andthendesignsan

7、ewalgorithmbasedonthe鰣dmodel.Themainworksinthethesisarelistedasfollowing:1.Summarizingtheproblemofoutlierminingfromtherealisticmeaning,algorithms,applicationrangesdetectiontools,algorithm’Sevaluation,etc.2.Toovercomethelimitationofexistingalgorithmsforoutlierdetection,thispaperprovide

8、sanew

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。