資源描述:
《基于網(wǎng)格的分布式數(shù)據(jù)挖掘體系結(jié)構(gòu)的-研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、重慶大學(xué)碩士學(xué)位論文1緒論1緒論1.1論文的研究背景在電氣工程學(xué)科的某些研究領(lǐng)域中,存在需要通過分析、處理大量數(shù)據(jù)從而得到結(jié)論的一些問題,例如,電力系統(tǒng)負(fù)荷預(yù)測、電力設(shè)備遠(yuǎn)程在線監(jiān)測、電力市場運(yùn)營系統(tǒng)中的實(shí)時報價系統(tǒng)、潮流分析系統(tǒng)等等。而對于上述這類數(shù)據(jù)分析處理方面的問題的解決,采用數(shù)據(jù)挖掘的方法應(yīng)當(dāng)是一種有效的方法,它也是當(dāng)前一個主要的研究方向。例如,文獻(xiàn)[1]采用數(shù)據(jù)挖掘的方法通過分析歷史負(fù)荷數(shù)據(jù)來進(jìn)行電力系統(tǒng)負(fù)荷預(yù)測;文獻(xiàn)[2]采用數(shù)據(jù)挖掘的方法通過對電力設(shè)備各個參數(shù)的實(shí)時數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系分析來判斷電力設(shè)備的實(shí)時狀態(tài);文獻(xiàn)[3]采用數(shù)據(jù)挖掘的方法通過分析歷史報
2、價來計算實(shí)時上網(wǎng)電價。數(shù)據(jù)挖掘(DataMining,簡稱DM)作為20世紀(jì)末剛剛興起的數(shù)據(jù)智能分析技術(shù),由于其具有的廣闊應(yīng)用前景而備受關(guān)注。作為數(shù)據(jù)庫與數(shù)據(jù)倉庫研究與應(yīng)用中的一個新興的富有前途的領(lǐng)域,數(shù)據(jù)挖掘也常被稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(KnowledgeDiscoveryfromDatabase,簡稱KDD),它可以從數(shù)據(jù)庫中自動抽取或發(fā)現(xiàn)出有用的[4]模式知識。知識發(fā)現(xiàn)(KDD)源于人工智能和機(jī)器學(xué)習(xí),知識發(fā)現(xiàn)用一種簡潔的[5]方式從數(shù)據(jù)庫中抽取信息,這些信息是隱含的、未知的、并且是潛在有用的。知識發(fā)現(xiàn)可看成是一種數(shù)據(jù)搜尋過程,它不同于傳統(tǒng)的數(shù)據(jù)處理過程,它不必預(yù)先
3、假設(shè)或提出問題,但仍能找到那些非預(yù)期的令人關(guān)注的信息,這些信息表示了數(shù)據(jù)元素的關(guān)系和模式。分布式數(shù)據(jù)挖掘(DistributedDataMining)就是使用分布式計算技術(shù),從分布[6]式數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程。在現(xiàn)實(shí)應(yīng)用環(huán)境中,絕大部分的大型數(shù)據(jù)庫都是以分布式的形式存在的,因此分布式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個主要研究方向,而對分布式數(shù)據(jù)挖掘的研究主要包括兩個方面:分布式數(shù)據(jù)挖掘體系結(jié)構(gòu)和分布式數(shù)據(jù)挖掘算法。體系結(jié)構(gòu)是基礎(chǔ),算法是靈魂。早期的分布式數(shù)據(jù)挖掘系統(tǒng)將分布式存儲的數(shù)據(jù)重新集中構(gòu)成一個臨時的數(shù)據(jù)倉庫或者是數(shù)據(jù)集市,再由集中式的挖掘算法對其進(jìn)行挖掘。這種方式會造成
4、數(shù)據(jù)的安全性、保密性方面的問題,也給網(wǎng)絡(luò)通信帶寬提出了很高的要求。同時,在現(xiàn)實(shí)應(yīng)用環(huán)境中,把大規(guī)模的分布式數(shù)據(jù)移動到一個集中式的平臺上,是非常困難的。同時,這樣的挖掘方式本質(zhì)上還是屬于集中式的挖掘。因此,目前在為了實(shí)現(xiàn)真正意義上的分布式數(shù)據(jù)挖掘方面已經(jīng)進(jìn)行了不少的研究,取得了一定的成果。比如文獻(xiàn)[7]中提出的JAM系統(tǒng),它采用從局部學(xué)習(xí)構(gòu)成全局元學(xué)習(xí)環(huán)境的方式;文獻(xiàn)[8]中提出的Kensington數(shù)據(jù)挖掘基礎(chǔ)架構(gòu),它是基于1重慶大學(xué)碩士學(xué)位論文1緒論CORBA來進(jìn)行遠(yuǎn)程通信和訪問的;文獻(xiàn)[9]中提出的BODHI系統(tǒng)是一個基于Agent的系統(tǒng)。它們都較為圓滿地解決了集
5、中式挖掘所帶來的各種問題。然而,這些分布式數(shù)據(jù)挖掘系統(tǒng)或多或少仍然存在以下這些缺陷:1、在各個分布的局部數(shù)據(jù)集上應(yīng)用局部挖掘算法生成各個局部模型的過程中,各個分布的局部數(shù)據(jù)集之間缺乏聯(lián)系,這將會影響最后由各個局部模型生成的全局模型的準(zhǔn)確性。2、系統(tǒng)大多是緊耦合的,因此在系統(tǒng)中加入新的算法是非常困難的。3、無法根據(jù)用戶的要求動態(tài)地發(fā)現(xiàn)合適的算法和數(shù)據(jù)集。上述缺陷是由于現(xiàn)有成熟的分布式計算技術(shù)的局限性所造成的,因此,本文旨在研究如何利用網(wǎng)格計算這一最新的分布式計算技術(shù)來處理分布式數(shù)據(jù)挖掘的問題,提高數(shù)據(jù)挖掘的效率,加強(qiáng)數(shù)據(jù)分析、處理能力,從而能夠?qū)﹄姎夤こ虒W(xué)科內(nèi)某些研究領(lǐng)
6、域內(nèi)的問題的解決有所幫助。1.2問題的提出一種新技術(shù)的出現(xiàn),意味著某些在以往技術(shù)條件下難以解決甚至無法解決的問題或許可以借助新技術(shù)得以解決。例如,計算機(jī)發(fā)明以后,因?yàn)辇嫶蟮挠嬎懔啃枨蠖鵁o法解決的科學(xué)或工程問題迎刃而解;網(wǎng)絡(luò)發(fā)明以后,科學(xué)或工程上的分工協(xié)作變得更加廣泛,因?yàn)橥ㄟ^網(wǎng)絡(luò)傳遞信息和分享資源是再簡單不過的事情。然而,利用新技術(shù)解決舊問題也不可能一帆風(fēng)順,毫無阻礙。在一個新的環(huán)境下,舊問題也會出現(xiàn)新的難點(diǎn),面臨新的挑戰(zhàn)。比如,利用計算機(jī)求解多元方程組,就需要針對計算機(jī)的特點(diǎn)修改求解算法,而不能直接套用手工計算所使用的算法。那么對于網(wǎng)格計算這種全新的計算模式而言,如
7、果將它應(yīng)用在數(shù)據(jù)挖掘領(lǐng)域,構(gòu)建分布式數(shù)據(jù)挖掘體系結(jié)構(gòu),提高數(shù)據(jù)挖掘的性能,也將需要解決許多挑戰(zhàn)性的問題:1、網(wǎng)格計算體系結(jié)構(gòu)以及網(wǎng)格中間件的混亂:目前有幾種主流的網(wǎng)格計算體系結(jié)構(gòu),以及十幾種網(wǎng)格中間件。不同的網(wǎng)格計算體系結(jié)構(gòu)適用于不同類型的應(yīng)用,沒有一種體系結(jié)構(gòu)適用于所有的應(yīng)用,這就需要對各個體系結(jié)構(gòu)進(jìn)行比較分析,從而選出一種適合于進(jìn)行分布式數(shù)據(jù)挖掘的體系結(jié)構(gòu)。2、網(wǎng)格中間件的不成熟:網(wǎng)格中間件對于網(wǎng)格就如同操作系統(tǒng)對于計算機(jī),對于網(wǎng)格應(yīng)用就如同操作系統(tǒng)對于應(yīng)用軟件,可以說網(wǎng)格中間件是網(wǎng)格應(yīng)用在網(wǎng)格上運(yùn)行的平臺,也可以說網(wǎng)格中間件就是網(wǎng)格操作系統(tǒng)。然