資源描述:
《探究基于云計算的Web結(jié)構(gòu)挖掘算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、探究基于云計算的Web結(jié)構(gòu)挖掘算法摘要:云計算是基于互聯(lián)網(wǎng)的一種超級計算模式,能夠為將Web中的所有數(shù)據(jù)信息集中在一起,為其提供各種服務。數(shù)據(jù)挖掘是獲取Web網(wǎng)頁中的有用的信息,隨著互聯(lián)網(wǎng)的快速發(fā)展,Web網(wǎng)頁中的數(shù)據(jù)信息量顯著增加,傳統(tǒng)挖掘算法已經(jīng)無法滿足用戶的實際需求,基于云計算的Web結(jié)構(gòu)挖掘算法,能夠打破傳統(tǒng)挖掘算法的桎梏,對于Web網(wǎng)頁信息和知識的發(fā)現(xiàn)提供了很大的便利。文章分析了云計算的特點以及服務模式,探析了一種基于云計算的Web結(jié)構(gòu)挖掘算法,即基于MapReduce的PageRank算法,以供參考。關(guān)鍵詞:云計算;Web
2、;結(jié)構(gòu)挖掘算法中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2015)06-0010-02數(shù)據(jù)挖掘指的是對大量、復雜的數(shù)據(jù)信息進行分析,然后從中獲取有用的數(shù)據(jù)信息。現(xiàn)如今,重要的數(shù)據(jù)信息都儲存在Web網(wǎng)頁上,由此可見研究Web數(shù)據(jù)挖掘的重要性。但是,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,Web網(wǎng)頁上的數(shù)據(jù)信息量不斷地增加,網(wǎng)絡環(huán)境也越來越復雜,想要從Web網(wǎng)頁中挖掘出有用的信息,傳統(tǒng)的節(jié)點計算、儲存算法已經(jīng)遠遠不能滿足需求,基于云計算的Web結(jié)構(gòu)挖掘算法,能夠有效地解決傳統(tǒng)算法存在的問題,例如,取能力、計算能力、儲存能力,能夠
3、更加快速、高效的挖掘.計算和儲存Web網(wǎng)頁的信息和知識。因此,文章針對基于云計算的Web結(jié)構(gòu)挖掘算法的研究具有非常重要的現(xiàn)實意義。1云計算的特點以及服務模式分析1.1云計算的特點云計算是一種基于用戶需求,為用戶提供主動服務的超級計算模式。云計算能夠為用戶提供共享的服務模式,并且能夠支持多個用戶的不同需求。云計算能夠滿足不同規(guī)模的計算需求,由信息和資源處理中心對需求進行快速的分析和調(diào)節(jié),并進行云計算。云計算采用按量計費的方式,用戶不需要對沒有消費的服務買單,這樣既能夠降低成本,又能夠避免造成浪費。1.2云計算的服務模式分析云計算的服務模
4、式主要包括以下幾個方面:1)IaaS,InfraslruelureasaService基礎(chǔ)設(shè)施即服務,根據(jù)用戶權(quán)限,可以直接方位云計算提供的網(wǎng)絡寬帶、分布式儲存、并行運算等基礎(chǔ)設(shè)置,同時可以根據(jù)自己的需求,搭建負荷自己需求的平臺;2)PaaS,PlatformasaService平臺即服務,云計算能夠為用戶提供一個平臺,包括工具集與軟件開發(fā)語言,其能夠為用戶組建一個虛擬的操作系統(tǒng),用戶根據(jù)自己的需求在該平臺上開發(fā)以及部署相應的平臺與應用;3)SaaS,Softwareasaservice軟件即服務,用戶根據(jù)自己的需求,使用基于云計算架
5、構(gòu)的應用程序為自己服務,例如網(wǎng)絡儲存、在線表格、在線文檔、電子郵件等。2基于MapReduce的PageRank算法分析2.1基于MapReduce的PageRank算法的實現(xiàn)2.1.1算法數(shù)據(jù)準備按照鏈接結(jié)構(gòu)文件格式將文件轉(zhuǎn)換成針對每一個節(jié)點的出鏈接結(jié)構(gòu)文件,其中預處理數(shù)據(jù)包由網(wǎng)頁上的海量數(shù)據(jù)信息組成,在map執(zhí)行的過程中,按照map方法,生成所有起始節(jié)點的目標點的,其中key表示起始節(jié)點,value表示目標節(jié)點,每一個key為初始化PageRank然后輸出數(shù)據(jù)到HDFSo2.1.2算法的實現(xiàn)PageRank算法輸出的每個節(jié)點,按照
6、Map方法對輸入每一行記錄的目標節(jié)點順序,按照每個key歸類MapReduce框架采集map方法對應的valueo按照reduce方法,將每一個key:頁面y,對的所有項進行加和,然后帶入公式:Pk+1二dATPk+(1-d)(公式1)計算,其中,PK表示第k次迭代后的PageRank向量,AT表示矩陣的轉(zhuǎn)置矩陣,然后輸出所有頁面全新的PageRank,即獲得所有key初始化的PageRank值,在HDFS中儲存所有的計算結(jié)果,進行下一次迭代計算。在迭代計算過程中,Mapper對所有起點的目標點生成一個與之對應的partial,然后把
7、所有的partial傳送至Mapreduce中。按照PageRank算法的傳統(tǒng)計算公式,推算PageRank算法的向量公式,即公式1,因此按照初始向量P0進行向量Pk的遞推,過程表現(xiàn)為:P1二dATPO+(1-d)e(公式2)P2二d2(AT)2P0+d(1-d)ATe+(1-d)e(公式3)Pk二+dk(AT)kPO+dk-1(1-d)(AT)k-le+???d(1-d)ATe+(1-d)e(公式4)通過上述遞推過程,以跨度為2計算公式為:P2=d2(AT)2P0+d(1-d)ATe+(1-d)e迭代并行PageRank改進算法的過
8、程表現(xiàn)為以下幾個方面:1)在計算之前,應該先生成和跨度相關(guān)的鄰接矩陣,以k=2為例,釆用MapReduce計算AT,根據(jù)MapReduce過程獲得(AT)2,MapReduce在迭代的過程中,以初始PageRank向量、