基于抽樣的云頻繁項(xiàng)集挖掘算法研究

ID：27261014

大小：4.58 MB

頁數(shù)：74頁

時間：2018-12-02

資源描述：

《基于抽樣的云頻繁項(xiàng)集挖掘算法研究》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于抽樣的云頻繁項(xiàng)集挖掘算法研究TheResearchofCloudFrequentItemsetsMining AlgorithmsWhichBasedonSample作者姓名宛婉學(xué)位類型學(xué)歷碩士學(xué)科、專業(yè)計(jì)算機(jī)應(yīng)用技術(shù)研究方向信息管理與智能決策導(dǎo)師及職稱周國祥教授2013年3月基于抽樣的云頻繁項(xiàng)集挖掘算法研究摘要隨著數(shù)據(jù)收集技術(shù)的發(fā)展，海量數(shù)據(jù)時代已經(jīng)到來。當(dāng)今社會商業(yè)競爭異常激烈，人們迫切希望從海量數(shù)據(jù)中，提取有用的信息以幫助進(jìn)行商業(yè)決策。但是，傳統(tǒng)的數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)在處理海量數(shù)據(jù)時，時間和空間的代價(jià)過大，很難滿足人們的需求。例如，數(shù)據(jù)挖掘中傳統(tǒng)的頻繁項(xiàng)集挖掘需要多次掃描數(shù)據(jù)

2、集，消耗大量時間；還需要存儲大量的候選項(xiàng)集，消耗大量內(nèi)存。數(shù)據(jù)收集技術(shù)發(fā)展的同時，海量數(shù)據(jù)處理技術(shù)也以高并發(fā)、低成本的處理優(yōu)勢高速發(fā)展。近幾年，以Hadoop生態(tài)系統(tǒng)發(fā)展最具代表性。Hadoop項(xiàng)目主要由兩部分組成：HDFS和mapreduce，它們分別是GoogleFileSystem和GoogleMapReduce的開源實(shí)現(xiàn)。Hadoop分布式框架主要是以廉價(jià)的商業(yè)機(jī)器為計(jì)算節(jié)點(diǎn)構(gòu)成云平臺，達(dá)到高效處理海量數(shù)據(jù)的目的。將數(shù)據(jù)挖掘和Hadoop框架有機(jī)結(jié)合，利用Hadoop優(yōu)秀的海量數(shù)據(jù)處理能力進(jìn)行挖掘，將會給數(shù)據(jù)挖掘帶來新的活力。本文主要針對數(shù)據(jù)挖掘中頻繁項(xiàng)集挖掘和Hadoop框架相

3、結(jié)合，做了以下工作：（1）對Hadoop平臺進(jìn)行深入的研究和分析。Hadoop平臺的最核心的兩個部分是：用于海量數(shù)據(jù)存儲的HDFS分布式文件系統(tǒng)和用于數(shù)據(jù)處理的Mapreduce并行編程框架。兩者相輔相成，構(gòu)成了Hadoop分布式框架。（2）為了進(jìn)一步提高頻繁項(xiàng)集挖掘效率，提出了一種基于Hadoop平臺的并行抽樣算法。這種算法利用mapreduce編程框架，單次掃描海量數(shù)據(jù)即可實(shí)現(xiàn)隨機(jī)抽樣。在抽樣的過程中，還可以完成對數(shù)據(jù)的清理工作。（3）對傳統(tǒng)頻繁項(xiàng)集挖掘算法進(jìn)行深入的研究后，提出了一種基于抽樣的頻繁項(xiàng)集并行發(fā)現(xiàn)算法。該算法基于Hadoop平臺，充分發(fā)揮其處理海量數(shù)據(jù)的優(yōu)勢，實(shí)驗(yàn)證明該

4、算法具有良好的挖掘性能。關(guān)鍵詞：數(shù)據(jù)挖掘；頻繁項(xiàng)集；Hadoop；MapreduceTheResearchofCloudFrequentItemsetsMiningAlgorithmWhichBasedonSampleAbstractWiththedevelopmentofdatacollectiontechnology,theeraofmassivedataiscoming.Businesscompetitionisfierceintoday'ssociety,peopleareeageringtoextractusefulinformationsfrommassivedatawhic

5、hhelpthemtomakecorrectbusinessdecisions.However,thetraditionaldataanalysisanddataminingtechniquesaredifficulttomeetthedemandofpeopleindealingwithmassivedata,becauseoftheexcessivehighcostoftimesandspaces.Forexample,thetraditionalfrequentitemsetsminingneedstoscandatasetssomanytimesthatcostalotoftim

6、es.Anditalsoneedstostorealargenumberofcandidateitemsets,whichconsumeslargeamountofmemories.Atthesametime,cloudcomputingwithhighconcurrencyandlowcostofmassdataprocessing,isdevelopingwithhighspeed.Inrecentyears,Hadoopecosystem’sdevelopmentisthemostrepresentative.Hadoopismainlycomposedoftwoparts:HDF

7、SandMapreduce.Itusescheapcommercialmachinesascomputenodestoconstituteacloudplatformwhichcanefficientprocessingmassivedata.Combinedataminingwithcloudcomputing,thismeansusingtheadvandageofcloudcomputingsuchasefficientpro

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 74



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于抽樣的云頻繁項(xiàng)集挖掘算法研究

基于抽樣的云頻繁項(xiàng)集挖掘算法研究

相關(guān)文章

相關(guān)標(biāo)簽