資源描述:
《基于網(wǎng)格模型的孤立點檢測算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、山東大學(xué)碩士學(xué)位論文基于網(wǎng)格模型的孤立點檢測算法姓名:閆宗奎申請學(xué)位級別:碩士專業(yè):計算機軟件與理論指導(dǎo)教師:石冰20090405山東大學(xué)碩士學(xué)位論文摘要數(shù)據(jù)挖掘技術(shù)是從上個世紀(jì)80年代開始發(fā)展起來的一門新技術(shù),就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。而孤立點分析是數(shù)據(jù)挖掘中的重要研究方面之一,其作用就是發(fā)現(xiàn)數(shù)據(jù)中的“小模式’’,即數(shù)據(jù)集中顯著不同于其它數(shù)據(jù)的對象。經(jīng)過近20年的發(fā)展,數(shù)據(jù)挖掘技術(shù)在理論研究上日趨成熟,正不斷的擴展其應(yīng)用范圍,當(dāng)前數(shù)據(jù)挖掘已用于電信、金融、商業(yè)、
2、氣象預(yù)報、DNA、股票市場、入侵檢測和客戶分類等許多領(lǐng)域。因此,本文首先研究了基于單元的孤立點發(fā)現(xiàn)算法,指出了其存在的缺點:其次,提出了一種基于網(wǎng)格模型的孤立點檢測算法。本文的主要工作可以概括為以下五個方面:(1)從孤立點挖掘的現(xiàn)實意義、算法、應(yīng)用領(lǐng)域、挖掘工具、算法的評價等各個方面對孤立點挖掘問題進行了綜述。(2)針對已有檢測方法的不足,本文提出了一個新的孤立點檢測方法,通過對數(shù)據(jù)集的網(wǎng)格劃分與數(shù)據(jù)模型的轉(zhuǎn)換來判別異常,從而有效提高算法的效率。.(3)設(shè)計了基于網(wǎng)格的檢測算法,給出了數(shù)據(jù)空間的網(wǎng)格劃分,定義了網(wǎng)格內(nèi)孤立點存在性閾值,提出了基于網(wǎng)格的孤立點檢測算法
3、,在保證算法的有效性的前提下,降低了算法的時間復(fù)雜度。(4)實現(xiàn)了一個異常檢測實驗平臺ED(ElninoDetector),其中集成了所提出的算法,為異常檢測提供了一個分析工具。所提供的數(shù)據(jù)接口能夠從標(biāo)準(zhǔn)Elnino數(shù)據(jù)集中獲取數(shù)據(jù),并進行相應(yīng)的數(shù)據(jù)瀏覽和分析。(5)結(jié)合氣候數(shù)據(jù)收集的特點,探討了使用異常檢測來檢測氣候的必要性和方法。本文的研究目的是構(gòu)建一個使用本文的算法從真實數(shù)據(jù)中檢測異常數(shù)據(jù)實驗平臺,主要包括幾個方面:1.給出數(shù)據(jù)空間的網(wǎng)格劃分;2.定義網(wǎng)格內(nèi)孤立點存在性閾值;3.提出了基于網(wǎng)格的孤立點檢測算法;山東大學(xué)碩士學(xué)位論文4.基于真實數(shù)據(jù)的算法驗證。
4、本文實現(xiàn)了一個基于EclipseRCP的試驗平臺,通過對Elnino數(shù)據(jù)集的檢測結(jié)果,對本文提出的算法進行了驗證。試驗結(jié)果表明,該算法能夠得到比較好的孤立點分析結(jié)果。最后,對本文的工作進行了總結(jié)和對研究前景的展望。關(guān)鍵詞:數(shù)據(jù)挖掘;孤立點:網(wǎng)格模型II山東大學(xué)碩士學(xué)位論文ABSTRACTDataMiningisanewtechniquedevelopedfrom1980s.Itaimstoextracttheimplicit,unknown,andpotentiallyusefulknowledgefromvoluminous,non—complete,fuzzy
5、,stochasticdata.Outliers’analysisisallimportantpartofdataminingresearch.Itspurposeistofindthe”smallpatterns“fromdataset.Anoutlierisallobjectthatisconsiderablydissimilarorinconsistent、7l,iththeremainderofthedata.After20yearsofdevelopment,onthetheory,dataminingtechniquesisbecomingmorean
6、dmoreconsummateandisexpandingitsapplicationarea.Now,datamininghasbeenusedintelecom,finance,busyness,weatherforecast,DNA,stockmarket,intrusiondetectionandcustomersegmentationetc.Sointhispaperwefirstresearchthealgorithmofoutlierdetectionbasedcell,pointoutitsshortcomings,andthendesignsan
7、ewalgorithmbasedonthe鰣dmodel.Themainworksinthethesisarelistedasfollowing:1.Summarizingtheproblemofoutlierminingfromtherealisticmeaning,algorithms,applicationrangesdetectiontools,algorithm’Sevaluation,etc.2.Toovercomethelimitationofexistingalgorithmsforoutlierdetection,thispaperprovide
8、sanew