HDFS高可用性方案.ppt

HDFS高可用性方案.ppt

ID:55796010

大?。?.04 MB

頁數:20頁

時間:2020-06-07

HDFS高可用性方案.ppt_第1頁
HDFS高可用性方案.ppt_第2頁
HDFS高可用性方案.ppt_第3頁
HDFS高可用性方案.ppt_第4頁
HDFS高可用性方案.ppt_第5頁
資源描述:

《HDFS高可用性方案.ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫

1、HDFS高可用性方案大數據高可用性方案:一。副本技術方案:主要介紹HDFS。二。糾錯碼技術方案:主要介紹HDFS-RAID。1.集群高可用方法一:副本技術主要代表方案:GFS/HDFS、Glusterfs復制卷和RAID1。Glusterfs復制卷方法如下圖所示:1.1副本技術的功能副本(Replication)就是對原始數據的完全拷貝。功能:(1)通過冗余的文件數據,可以十分有效地提高文件的可用性;(2)副本還可以選擇性地放在合適的存儲節(jié)點上,通過路由協議配合,可以實現數據的就近訪問,提高系統性能。2.集群高可用方法二:糾錯碼技術主要代表方

2、案:HDFS-RAID、AZURE、QFS、ISILON等。我們將以HDFS-RAID為主來說明。2.1HDFS-RAID總體架構HDFSRAID的實現不再HDFS上直接修改,而是在HDFS之上增加了一個包contrib。2.1HDFS-RAID基本功能1Raid數據的管理DRFS的管理包括DFS中哪些文件需要進行raid化,查詢raid文件狀態(tài)等,由RaidShell通過RPC與集群中的RaidNode通信,完成操作。2Raid數據讀寫DRFS包裝了DFS的讀(只是讀)請求,當發(fā)生block丟失或損壞,DRFS會捕獲異常,并向RaidNod

3、e發(fā)送RPC對失效的數據進行恢復。2.1HDFS-RAID工作原理(1)HDFS-RAID中包括RaidNode、NameNode和JobTracker三個主節(jié)點。數據raid化有兩種:1.通過raidFile命令觸發(fā);2.周期掃描policy配置,根據新的配置信息進行相應的raid化。2.1HDFS-RAID工作原理(2)raidFile命令處理流程:2.1HDFS-RAID工作原理(3)流程說明:1.檢查delay時間,到時間方執(zhí)行;2.參數處理,包括path路徑校驗,codec設置等;3.查詢path路徑狀態(tài),分為local(本地)和d

4、ist(遠程)兩種模式;4.根據參數構造一個新的raid-policy,等待TiggerMonitor線程下次處理該policy。2.1HDFS-RAID工作原理(4)新policy處理流程:RaidNode上有一個守護線程riggerMonitor周期性地從configManager中獲取policy列表,對每個policy進行如下處理:1.如未執(zhí)行過,立即處理;如已處理,過濾其path中尚未處理的file;2.如果是local模式,對列表中的file執(zhí)行RaidNode.doRaid();3.如果是dist模式,構建一個raidjob,就

5、是一個待raid文件path構成的sequence文件,RaidNode.doRaid()對該文件中的filepath進行raid。2.1HDFS-RAID工作原理(5)RaidNode.doRaid()的主要流程如下::2.1HDFS-RAID工作原理(6)流程說明:1.獲取文件block和delay信息,如果block數<3或未至delay時間,則不進行raid;2.如果已到達delay時間且block數>2時則進入步驟3;3.檢查相應的parity文件是否存在,如存在,檢查parity文件的更新時間是否與源文件一致,如是,則認為該源文件

6、已經raid且是最新,不進行raid。4.如果parity文件不存在或不是最新,則生成parity文件,生成方法說明如后,并設置parity文件的更新時間與源文件一致。5.檢查policy文件的最終狀態(tài),是否與源文件一致。通過則raid完成。2.1HDFS-RAID工作原理(7)生成parity文件的Encoder過程:2.1HDFS-RAID工作原理(8)Encoder流程說明:1.由于編碼過程會比較長,所以先生成?p文件;2.構建?p文件path;3.通過ErasuedCode(主要有XOR算法和RS算法)來編碼到?p文件;4.刪除原有的

7、parity文件;5.將?p文件重命名為parity文件;6.刪除?p文件。2.1HDFS-RAID工作原理(9)發(fā)現錯誤時Decoder修復過程:2.1HDFS-RAID工作原理(10)修復流程說明:1.根據文件中出錯的位置,計算出錯的block,該block所在的stripe,以及在stripe中的位置,計算parity文件相應block的位置2.讀取源block數據和parity數據,讀取方式與編碼時類似;3.通過ErasuredCode將源block和parity數據的進行解碼,生成丟失的block數據。2.2HDFS小結集群存儲系統

8、中,采用糾刪碼可以提供比副本機制更高的可靠性,并且所需的存儲空間開銷更小。糾刪碼能提供很高的容錯性和很低的空間復雜度,但編碼方式較復雜,需要大量計算,性能稍差。12

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯系客服處理。