資源描述:
《(最新)海量rdf數(shù)據的分布式存儲研究》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、郭亨亨趙文靜,(西安建筑科技大學信息與控制工程學院,西安710055)摘要:介紹海量RDF數(shù)據分布式存儲的一種解決方案。RDF數(shù)據是按照主題-謂詞-對象三元組進行存儲的,重要的RDF數(shù)據還存儲了額外的信息,例如版本信息、臨時查詢信息等。學習和研究當前流行的幾種分布式存儲框架,依托于開源框架HBase,在Linux集群上實現(xiàn)高效、協(xié)作地存儲海量RDF數(shù)據。關鍵詞:RDF;語義網;分布式文件系統(tǒng)(HDFS);統(tǒng)一資源標識符(URI)引言隨著Web數(shù)據和各種網絡資源的劇增以及將來語義網的發(fā)展,海量RDF存儲成為當前比較緊迫的問都在緊鑼密鼓地布置自己的云計算平臺,像Googl
2、e這樣巨頭,組建了Gfs、Google的分布式文件存儲系統(tǒng),又在其上開發(fā)了Bigtable數(shù)據庫,其目標是處理非常龐大的數(shù)據表。而開源項目Hadoop,它也實現(xiàn)了Google那0題。本文是借助研究一個開源的分布式存儲和計算平樣同樣的功能,我們可以在上面開發(fā)各種分布式的應臺Hadoop和以及其上的應用HadoopDatabase(HBase)來完成海量RDF的存儲實現(xiàn)。1RDF數(shù)據和分布式存儲介紹1.1語義網和RDF語義網的基本思想是對互聯(lián)網上任意的資源,進行結構化的描述并引入語義,使得計算機可以理解互聯(lián)網上的信息。當然,計算機不可能真正像人一樣進行思考,但是通過制定標
3、準,使用標準描述信息的含義,用,Hadoop中的分布式文件系統(tǒng)HDFS由一個管理結點(NameNode)和N個數(shù)據結點(DataNode)組成,每個結點均是一臺普通的計算機。在使用上同我們熟悉的單機上的文件系統(tǒng)非常類似,一樣可以建目錄、創(chuàng)建,復制、刪除文件、查看文件內容等。同樣,HBase是建立在HDFS上的數(shù)據庫引擎,本文正是通過研究HBase,并在其上研究和開發(fā)一種海量RDF存儲的解決方案。海量RDF數(shù)據和分布式存儲的結合點實現(xiàn)2計算機就可以根據標準進行自動分析和推理,將網絡使用HBase來存儲RDF數(shù)據,主要是利用了上的服務集成在一起,從而使得自動化智能服務成為
4、可能。RDF則可以看成是一種Web上的知識表示語言,Hadoop的分布式平臺的良好的可擴展性,只要加入足夠的計算機數(shù)目,就可以得到容量和速度的極大提高,適于建立一個云計算和存儲平臺,如果存儲了海量的是謂詞邏輯的一個特殊形式,它具有形式化的語義表RDF數(shù)據,我們就可以在其上研究一些智能的推理和述,計算機可以據此理解它所表達的語義信息。RDF是一個完備的形式化系統(tǒng)。隨著語義網的發(fā)展,海量RDF數(shù)據的存儲必將是要解決的基礎課題。1.2云計算和HBase計算,從而為構建語義網奠定基礎。使用HBase創(chuàng)建和存儲一個RDF,例如,我們要存儲一個作者和文章的RDF文件的兩個文件如下
5、:①RDF/XML格式的文章描述Bigtable:ADistributedStorageSy
6、stemforStructuredData②作者的RDF/XML描述$catRDF/Jeffrey.xml7、://purl.org/dc/elements/1.1/"xmlns:foaf="http://xmlns.com/foaf/0.1/"xmlns:eprint="http://purl.org/eprint/terms/">●創(chuàng)建HBase表與HBase交互的方式有好多,例如Shell,還有通過編寫Java程序調用相應的接口實現(xiàn),為說明方便,本次使用的與HBase交互的一種方法是通過API。使用清單1中顯示的HTTP請求創(chuàng)建表。清單1:創(chuàng)建Articles和Authors表。$cattables/Articles.xml