資源描述:
《文獻地的綜述鄭志亮》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在工程資料-天天文庫。
1、實用標準文案畢業(yè)設計(論文)文獻綜述設計(論文)題目:Hadoop環(huán)境下的遙感數(shù)據(jù)存儲模型設計實現(xiàn)學院名稱:理學院專業(yè):信息與計算科學學生姓名:鄭志亮學號:08480010227指導教師:尹天鶴2011年11月29日精彩文檔實用標準文案一、前言部分隨著對地觀測技術的快速發(fā)展遙感數(shù)據(jù)的量呈幾何級數(shù)成長,這給遙感數(shù)據(jù)的存儲管理帶來了巨大的挑戰(zhàn)。然而,網(wǎng)格計算是國家級高性能計算和信息服務的戰(zhàn)略性基礎設施,它的目標是將地理上分布、異構的各種高性能計算機、數(shù)據(jù)服務器、大型檢索存儲系統(tǒng)和可視化、虛擬現(xiàn)實系統(tǒng)等,通過高速互聯(lián)網(wǎng)絡連接并集成起來,共同完成一些缺乏有效研究辦法的重大
2、應用研究問題。因此,我們研究在Hadoop環(huán)境下遙感數(shù)據(jù)的存儲。Hadoop是一個分布式構架基礎架構,由Apache基金會開發(fā)。充分利用集群的威力高速運算和存儲。本課題將從以下幾個方面來加以研究:(1)HDFS是GoogleFileSystem(GFS)的開源實現(xiàn)。(2)MapReduce是GoogleMapReduce的開源實現(xiàn)。(3)HBase是GoogleBigTable的開源實現(xiàn)。Hadoop的最常見用法之一是Web搜索。雖然它不是惟一的軟件框架應用程序,但。作為一個并行數(shù)據(jù)處理引擎,它的表現(xiàn)非常突出二、主題部分2.1遙感數(shù)據(jù)數(shù)據(jù)特點和組織特征遙感圖像數(shù)據(jù)
3、庫級數(shù)是數(shù)字處理技術、數(shù)據(jù)庫技術和模式識別技術發(fā)展并相結合的產(chǎn)物。它具有如下特點:數(shù)據(jù)對象龐大、數(shù)據(jù)結構復雜、數(shù)據(jù)類型多樣、結構性數(shù)據(jù)與非結構性數(shù)據(jù)并存。遙感圖像能將大批的圖像及相關信息存儲在一起并進行有效管理。這些圖像信息的有效組織和檢索便依賴于基于內(nèi)容的圖像檢索方式CBIR,即數(shù)據(jù)給的圖像或顏色、紋理、形狀、空間關系等特征,檢索庫存圖像,找出給定圖像特征相似的圖像來。2.2Hadoop簡介Hadoop起初建立是作為Nutch項目的基礎(infrastructure),Nutch是一個開源的搜索引擎,主要由爬蟲crawler和查詢searcher兩部分組成。Ha
4、doop和Nutch都是LuceneApache項目的一部分。Hadoop(項目總稱)是原Yahoo的DougCutting根據(jù)Google發(fā)布的學術論文研究而來。它是一個分布式計算平臺,它主要由HDFS和Map-Reduce組成,但是二者的實現(xiàn)是完全分離的,并不是沒有HDFS就不能MapReduce運算。特點:Scalable(可伸縮性):可靠存儲處理大量數(shù)據(jù)(10的15次方字節(jié),即PB級數(shù)據(jù))Economical(經(jīng)濟性):數(shù)據(jù)分布和處理在集群中的可用廉價PC上,這些集群可以由數(shù)以千計的節(jié)點組成。Efficient(高效性):以并行的方式工作,通過并行處理加快
5、處理速度。Reliable(可靠性):自動維護多個數(shù)據(jù)副本,自動置配失敗時的計算任務。精彩文檔實用標準文案Hadoop分布式文件系統(tǒng)是遵循Google文件系統(tǒng)原理進行開發(fā)實現(xiàn)的,受到了業(yè)界極大關注。并已被廣泛運用。它是具有高可靠性和高可擴展性的文件系統(tǒng),能夠提供海量的文件存儲能力。 傳統(tǒng)的遙感影像數(shù)據(jù)庫一般是把影像數(shù)據(jù)放置到大型關系數(shù)據(jù)庫中。由于遙感影像數(shù)據(jù)量較大,因此其讀取、傳輸?shù)臅r間很長,讓操作者難以忍受,影響了系統(tǒng)的快捷易用性。2.3Hadoop環(huán)境下遙感圖像存儲管理的主要研究內(nèi)容Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件。但是Hadoop是以一
6、種可靠、高效、可伸縮的方式進行處理的。Hadoop是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理。Hadoop是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務器,因此它的成本比較低,任何人都可以使用。因此根據(jù)遙感數(shù)據(jù)的特征及組織特點,本文做了以下幾個研究:(1)分析Hadoop環(huán)境下遙感圖像儲存的意義;(2)了解Hadoop環(huán)境下遙感圖像存儲實現(xiàn)方法;(3)深入研究Hadoop環(huán)境下存儲遙感圖像的設計機制;(4)設計并
7、實現(xiàn)存儲遙感圖像。三、總結部分傳統(tǒng)的遙感圖像存儲方式,由于數(shù)據(jù)量較大,讀取時間會很長,而在Hadoop環(huán)境下能有效提高存儲的速度?;谖募c數(shù)據(jù)庫的結合,提出了一個新的數(shù)據(jù)管理方式,完備的安全措施彌補了文件系統(tǒng)的先天不足。在此基礎上,繼續(xù)分析遙感影像數(shù)據(jù)庫的擴展應用,增強與其它關系數(shù)據(jù)庫系統(tǒng)的結合是今后系統(tǒng)研究發(fā)展的重要目標和方向。精彩文檔實用標準文案四、參考文獻[1] 李飛鵬,秦前清,李德仁.海量遙感影像數(shù)據(jù)庫實時壓縮系統(tǒng)的設計與實現(xiàn)[J].計算機工程與應用,2003,39(26):9-1[2]史小冬,孟丹,祝明發(fā),COSMOS:一種可擴展單一映象機群文件系統(tǒng),
8、南京大學學