基于抽樣的云頻繁項集挖掘算法研究

基于抽樣的云頻繁項集挖掘算法研究

ID:27261014

大?。?.58 MB

頁數(shù):74頁

時間:2018-12-02

基于抽樣的云頻繁項集挖掘算法研究_第1頁
基于抽樣的云頻繁項集挖掘算法研究_第2頁
基于抽樣的云頻繁項集挖掘算法研究_第3頁
基于抽樣的云頻繁項集挖掘算法研究_第4頁
基于抽樣的云頻繁項集挖掘算法研究_第5頁
資源描述:

《基于抽樣的云頻繁項集挖掘算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、基于抽樣的云頻繁項集挖掘算法研究TheResearchofCloudFrequentItemsetsMining AlgorithmsWhichBasedonSample作者姓名宛婉學位類型學歷碩士學科、專業(yè)計算機應用技術研究方向信息管理與智能決策導師及職稱周國祥教授2013年3月基于抽樣的云頻繁項集挖掘算法研究摘要隨著數(shù)據(jù)收集技術的發(fā)展,海量數(shù)據(jù)時代已經(jīng)到來。當今社會商業(yè)競爭異常激烈,人們迫切希望從海量數(shù)據(jù)中,提取有用的信息以幫助進行商業(yè)決策。但是,傳統(tǒng)的數(shù)據(jù)分析和數(shù)據(jù)挖掘技術在處理海量數(shù)據(jù)時,時間和空間的代價過大,很難滿足人們的需求。例如,數(shù)據(jù)挖掘中傳統(tǒng)的頻繁項集挖掘需要多次掃描數(shù)據(jù)

2、集,消耗大量時間;還需要存儲大量的候選項集,消耗大量內存。數(shù)據(jù)收集技術發(fā)展的同時,海量數(shù)據(jù)處理技術也以高并發(fā)、低成本的處理優(yōu)勢高速發(fā)展。近幾年,以Hadoop生態(tài)系統(tǒng)發(fā)展最具代表性。Hadoop項目主要由兩部分組成:HDFS和mapreduce,它們分別是GoogleFileSystem和GoogleMapReduce的開源實現(xiàn)。Hadoop分布式框架主要是以廉價的商業(yè)機器為計算節(jié)點構成云平臺,達到高效處理海量數(shù)據(jù)的目的。將數(shù)據(jù)挖掘和Hadoop框架有機結合,利用Hadoop優(yōu)秀的海量數(shù)據(jù)處理能力進行挖掘,將會給數(shù)據(jù)挖掘帶來新的活力。本文主要針對數(shù)據(jù)挖掘中頻繁項集挖掘和Hadoop框架相

3、結合,做了以下工作:(1)對Hadoop平臺進行深入的研究和分析。Hadoop平臺的最核心的兩個部分是:用于海量數(shù)據(jù)存儲的HDFS分布式文件系統(tǒng)和用于數(shù)據(jù)處理的Mapreduce并行編程框架。兩者相輔相成,構成了Hadoop分布式框架。(2)為了進一步提高頻繁項集挖掘效率,提出了一種基于Hadoop平臺的并行抽樣算法。這種算法利用mapreduce編程框架,單次掃描海量數(shù)據(jù)即可實現(xiàn)隨機抽樣。在抽樣的過程中,還可以完成對數(shù)據(jù)的清理工作。(3)對傳統(tǒng)頻繁項集挖掘算法進行深入的研究后,提出了一種基于抽樣的頻繁項集并行發(fā)現(xiàn)算法。該算法基于Hadoop平臺,充分發(fā)揮其處理海量數(shù)據(jù)的優(yōu)勢,實驗證明該

4、算法具有良好的挖掘性能。關鍵詞:數(shù)據(jù)挖掘;頻繁項集;Hadoop;MapreduceTheResearchofCloudFrequentItemsetsMiningAlgorithmWhichBasedonSampleAbstractWiththedevelopmentofdatacollectiontechnology,theeraofmassivedataiscoming.Businesscompetitionisfierceintoday'ssociety,peopleareeageringtoextractusefulinformationsfrommassivedatawhic

5、hhelpthemtomakecorrectbusinessdecisions.However,thetraditionaldataanalysisanddataminingtechniquesaredifficulttomeetthedemandofpeopleindealingwithmassivedata,becauseoftheexcessivehighcostoftimesandspaces.Forexample,thetraditionalfrequentitemsetsminingneedstoscandatasetssomanytimesthatcostalotoftim

6、es.Anditalsoneedstostorealargenumberofcandidateitemsets,whichconsumeslargeamountofmemories.Atthesametime,cloudcomputingwithhighconcurrencyandlowcostofmassdataprocessing,isdevelopingwithhighspeed.Inrecentyears,Hadoopecosystem’sdevelopmentisthemostrepresentative.Hadoopismainlycomposedoftwoparts:HDF

7、SandMapreduce.Itusescheapcommercialmachinesascomputenodestoconstituteacloudplatformwhichcanefficientprocessingmassivedata.Combinedataminingwithcloudcomputing,thismeansusingtheadvandageofcloudcomputingsuchasefficientpro

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。