web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn)

ID：24060029

大小：50.00 KB

頁(yè)數(shù)：3頁(yè)

時(shí)間：2018-11-12

web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn)_第1頁(yè)

web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn)_第2頁(yè)

web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn)_第3頁(yè)

資源描述：

《web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn)》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、Web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn)：L　　：TP399：A：1009-3044(2011)19-4526-03　　iningintheRealizationofCloudputingPlatforms　　YANGNan,LUOSheng-xian　　(SchoolofInformationScienceandTechnology,ChengduUniversityofTechnology,Chengdu610051,China)　　Abstract:TheL　　aster和大量Chunkserver(塊服務(wù)器)構(gòu)成，Master中的所有信息都存儲(chǔ)在內(nèi)存里，啟動(dòng)時(shí)信息從Chun

2、kserver中獲取，提高了Master的性能和吞吐量，也有利于Master當(dāng)?shù)艉螅苋菀装押髠錂C(jī)器切換成Master?！　?.2數(shù)據(jù)管理技術(shù)　　云計(jì)算需要對(duì)分布的、海量的數(shù)據(jù)進(jìn)行處理、分析，因此，數(shù)據(jù)管理技術(shù)必需能夠高效的管理大量的數(shù)據(jù)。云計(jì)算系統(tǒng)中的數(shù)據(jù)管理技術(shù)主要是Google的BigTable[3]數(shù)據(jù)管理技術(shù)和Hadoop團(tuán)隊(duì)開發(fā)的開元數(shù)據(jù)管理模塊HBase?！　igTable是建立在GFS，Scheduler，LockService和MapReduce[4]之上的一個(gè)大型的分布式數(shù)據(jù)庫(kù)，與傳統(tǒng)的數(shù)據(jù)庫(kù)不同，他把所有數(shù)據(jù)都作為對(duì)象來(lái)處理，形成一個(gè)巨大的表格，用來(lái)

3、分布存儲(chǔ)大規(guī)模結(jié)構(gòu)化數(shù)據(jù)?！　oogle的很多項(xiàng)目使用BigTable來(lái)存儲(chǔ)數(shù)據(jù)，包括X頁(yè)查詢，Googleearth和Google金融。這些應(yīng)用程序?qū)igTable的要求各不相同：數(shù)據(jù)大小不同，反應(yīng)速度不同。對(duì)于不同的要求，BigTable都成功的提供了靈活高效的服務(wù)?！　?.3編程模型的技術(shù)　　云計(jì)算采用類似MapReduce的編程模式，其不僅僅是一種編程模型，同時(shí)也是一種高效的任務(wù)調(diào)度模型。它只需要編程人員將精力放在應(yīng)用程序本身，如何通過(guò)分布式的集群來(lái)支持并行計(jì)算則交由平臺(tái)處理，保證云計(jì)算后臺(tái)復(fù)雜的并行執(zhí)行和任務(wù)調(diào)度過(guò)程向用戶和編程人員透明?！　apReduce

4、主要通過(guò)“Map（映射）”和“Reduce(化簡(jiǎn))”這兩個(gè)步驟來(lái)并行處理大規(guī)模的數(shù)據(jù)集。首先，Map會(huì)對(duì)有很多獨(dú)立元素組成的邏輯列表中的每一個(gè)元素進(jìn)行指定的操作，且原始列表不會(huì)被更改，會(huì)創(chuàng)建多個(gè)新的列表來(lái)保存Map的處理結(jié)果。當(dāng)Map工作完成之后，系統(tǒng)會(huì)接著對(duì)新生成的多個(gè)列表進(jìn)行清理和排序，之后，會(huì)將這些新創(chuàng)建的列表進(jìn)行Reduce操作，也就是對(duì)一個(gè)列表中的元素根據(jù)key值進(jìn)行適當(dāng)?shù)暮喜?。MapReduce模型的計(jì)算流程如圖1所示?！　?ining）、ining）、ining）?！　eb結(jié)構(gòu)挖掘是從站點(diǎn)的組織結(jié)構(gòu)和頁(yè)面結(jié)構(gòu)中推導(dǎo)出知識(shí)，對(duì)Web頁(yè)面間的結(jié)構(gòu)進(jìn)行挖掘，找出數(shù)

5、據(jù)鏈的結(jié)構(gòu)進(jìn)行分類、聚類，從而發(fā)現(xiàn)頁(yè)面間的關(guān)系，進(jìn)而改進(jìn)搜索引擎的性能?！　eb內(nèi)容挖掘主要包括文本挖掘和多媒體挖掘兩類，其對(duì)象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。　　Web使用挖掘通過(guò)挖掘相關(guān)的Web日志記錄，來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式，通過(guò)分析日志記錄中的規(guī)律，可以識(shí)別用戶的喜好、滿意度，可以發(fā)現(xiàn)潛在用戶，增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力?！　?.4WebGraph簡(jiǎn)介　　在Web內(nèi)容挖掘和結(jié)構(gòu)挖掘中，為了更好的存儲(chǔ)和表達(dá)L[7],GraphML是一種基于XML用于描述圖（Graph）的通用文件格式，十分適合在生成、存儲(chǔ)和處理Graph中使用。如果Tran

6、sactionsonputerSystem,2008,26(2).　　[4]JeffreyDean,SanjayGhemapliedDataProcessingonLargeClusters,OSDI2004.　　[5]霍麗峰.].CormellUniversity,2007.　　[7]GraphML,graphml.graphdraber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2006.

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 / 3



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn)

web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn)

相關(guān)文章

相關(guān)標(biāo)簽