資源描述:
《華工srp結(jié)題報告模板》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、華工srp結(jié)題報告模板 篇一:(格式)SRP結(jié)題報告書格式 ****大學(xué) “學(xué)生研究計(jì)劃”(SRP)項(xiàng)目結(jié)題報告書 項(xiàng)目編號: 項(xiàng)目名稱: 起止時間: 學(xué)生姓名: 學(xué)院專業(yè): 聯(lián)系電話: 電子信箱: 指導(dǎo)教師: 華南理工大學(xué)廣州學(xué)院教務(wù)處制 年月日 篇二:SRP結(jié)題報告——唐偉志 SRP結(jié)題報告 基于分布式存儲的實(shí)驗(yàn)數(shù)據(jù)采集和管理系統(tǒng) 1.緒論 研究背景 在信息技術(shù)不斷發(fā)展下,人們認(rèn)識到了數(shù)據(jù)本身的價值,“大數(shù)據(jù)”在商業(yè)應(yīng)用中取得了巨大的成功。在智能信息處理的研究中,我們主要通過算法對
2、數(shù)據(jù)進(jìn)行理解和感知,在研究過程中會采集和產(chǎn)生大量數(shù)據(jù),如聲音、視頻、算法結(jié)果等,以往這些數(shù)據(jù)大部分會被作為無用數(shù)據(jù)丟棄,只保留部分實(shí)驗(yàn)結(jié)果。本項(xiàng)目擬使用當(dāng)前非關(guān)系數(shù)據(jù)庫、分布式文件系統(tǒng)等技術(shù),建立智能信息處理中實(shí)驗(yàn)產(chǎn)生數(shù)據(jù)的采集及存儲平臺,將數(shù)據(jù)存儲,以便后續(xù)更強(qiáng)大的算法和計(jì)算資源進(jìn)行分析處理。 學(xué)生參與研究主要內(nèi)容 開發(fā)基于分布式存儲的實(shí)驗(yàn)數(shù)據(jù)采集和管理系統(tǒng),用于采集和存儲各類試驗(yàn)中產(chǎn)生的數(shù)據(jù),方便隨時獲取和查閱,同時為后續(xù)更大規(guī)模的算法統(tǒng)計(jì)和處理做準(zhǔn)備,詳細(xì)包括: ?。?)、智能信息處理相關(guān)研究中各個環(huán)節(jié)數(shù)據(jù)的高效
3、、方便的采集; ?。?)、采集到數(shù)據(jù)的智能化處理,如標(biāo)記、分類、壓縮等; ?。?)、搭建分布式存儲系統(tǒng),用于存儲相關(guān)數(shù)據(jù),并盡量能適應(yīng)未來大規(guī)模并行算法的一些需求特點(diǎn); ?。?)、開發(fā)Web應(yīng)用,能進(jìn)行方便的數(shù)據(jù)查閱和獲取?! ☆A(yù)期目標(biāo) 搭建基于分布式存儲的實(shí)驗(yàn)數(shù)據(jù)采集和管理系統(tǒng)的小規(guī)模示范系統(tǒng)?! ?.分布式文件系統(tǒng)概述 分布式文件系統(tǒng)簡介 分布式文件系統(tǒng)(DistributedFileSystem)是一種允許文件通過網(wǎng)絡(luò)在多臺主機(jī)上分享的文件系統(tǒng),可讓多機(jī)器上的多用戶分享文件和存儲空間。 在這樣的文件系統(tǒng)中,客
4、戶端并非直接訪問底層的數(shù)據(jù)存儲區(qū)塊,而是通過網(wǎng)絡(luò),以特定的通信協(xié)議和服務(wù)器溝通。借由通信協(xié)議的設(shè)計(jì),可以讓客戶端和服務(wù)器端都能根據(jù)訪問控制列表或是授權(quán),來限制對于文件系統(tǒng)的訪問?! ∠鄬Φ兀谝粋€分享的磁盤文件系統(tǒng)中,所有節(jié)點(diǎn)對數(shù)據(jù)存儲區(qū)塊都有相同的訪問權(quán),在這樣的系統(tǒng)中,訪問權(quán)限就必須由客戶端程序來控制?! 》植际轿募到y(tǒng)可以包含的功能有:透通的數(shù)據(jù)復(fù)制與容錯。也就是說,即使系統(tǒng)中有一小部份的節(jié)點(diǎn)脫機(jī),整體來說系統(tǒng)仍然可以持續(xù)運(yùn)作而不會有數(shù)據(jù)損失。 綜上所述,分布式文件系統(tǒng)所擁有的透通的數(shù)據(jù)復(fù)制以及可靠的容錯性,十分適
5、合用于實(shí)驗(yàn)數(shù)據(jù)采集和管理系統(tǒng)?! 》植际轿募到y(tǒng)的選擇 當(dāng)前比較流行的分布式文件系統(tǒng)包括: Lustre:lustre是一個大規(guī)模的、安全可靠的,具備高可用性的集群文件系統(tǒng),它是由SUN公司開發(fā)和維護(hù)。該項(xiàng)目主要的目的就是開發(fā)下一代的集群文件系統(tǒng),可以支持超過10000個節(jié)點(diǎn),數(shù)以PB的數(shù)量存儲系統(tǒng)?! adoop:hadoop并不僅僅是一個用于存儲的分布式文件系統(tǒng),而是設(shè)計(jì)用來在由通用計(jì)算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的框架。 NFS:網(wǎng)絡(luò)文件系統(tǒng)是FreeBSD支持的文件系統(tǒng)中的一種,也被稱為NFS。NFS
6、允許一個系統(tǒng)在網(wǎng)絡(luò)上與它人共享目錄和文件。通過使用NFS,用戶和程序可以象訪問本地文件一樣訪問遠(yuǎn)端系統(tǒng)上的文件?! ≡趯?shí)際搭建中,主要考慮使用ApacheHadoop,Hadoop可以配合云計(jì)算處理OpenStack使用,開源,文檔資料比較豐富,現(xiàn)在已經(jīng)廣泛投入生產(chǎn)使用,也能夠滿足項(xiàng)目后續(xù)更大規(guī)模的算法統(tǒng)計(jì)和處理的要求?! adoop簡述及安裝 關(guān)于ApacheHadoop ApacheHadoop是一款支持?jǐn)?shù)據(jù)密集型分布式應(yīng)用并以Apache許可協(xié)議發(fā)布的開源軟件框架。它支持在商品硬件構(gòu)建的大型集群上運(yùn)行的應(yīng)用程序
7、。Hadoop是根據(jù)Google公司發(fā)表的MapReduce和Google檔案系統(tǒng)的論文自行實(shí)作而成,由開源社區(qū)維護(hù)?! adoop框架透明地為應(yīng)用提供可靠性和數(shù)據(jù)移動?,F(xiàn)在普遍認(rèn)為整個ApacheHadoop“平臺”包括Hadoop內(nèi)核、MapReduce、Hadoop分布式文件系統(tǒng)(HDFS)以及一些相關(guān)項(xiàng)目,有ApacheHive和ApacheHBase等等?! adoop基礎(chǔ)架構(gòu) Hadoop被定位為一個易于使用的平臺,以HDFS、MapReduce為基礎(chǔ),能夠運(yùn)行上千臺PCServer組成的系統(tǒng)集群,并以一
8、種可靠、容錯的方式分布式處理請求?! ∠聢D顯示Hadoop部署結(jié)構(gòu)示意圖 在Hadoop的系統(tǒng)中,會有一臺master,主要負(fù)責(zé)NameNode的工作以及JobTracker的工作。JobTracker的主要職責(zé)就是啟動、跟蹤和調(diào)度各個Slave的任務(wù)執(zhí)行。還會有多臺slave,每一臺slave通常具