1800一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法rcmd

1800一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法rcmd

ID:8781627

大小:244.50 KB

頁數(shù):7頁

時(shí)間:2018-04-07

1800一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法rcmd_第1頁
1800一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法rcmd_第2頁
1800一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法rcmd_第3頁
1800一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法rcmd_第4頁
1800一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法rcmd_第5頁
資源描述:

《1800一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法rcmd》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法RCMD)本文研究得到了國家863計(jì)劃(2005AA4Z3080)基金支持。艾春宇碩士,助教。李建中博士導(dǎo)師,教授。高宏博士,副教授。AnEfficientDataDeclusteringMethodRCMDinParallelDatabase艾春宇1李建中1,2高宏2(黑龍江大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院哈爾濱150080)1(哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院哈爾濱150001)2AbstractDatadeclusteringmethodshavegreatinfluenceonthequeryproc

2、essingperformanceinshared-nothingparalleldatabasesystem.Theexisteddatadeclusteringmethodshaveasamedisadvantagethattheyareefficientonlyforsomekindsofqueries,andworsefortheotherkindsofqueries.Inthispaper,weproposeanewdatadeclusteringmethod-RCMD,whichiseffectiveforallkind

3、sofqueries.TheoreticalanalysisandexperimentalresultsshowthatRCMDoutperformstheexistedmethodswhileprocessingqueriesinparalleldatabase.KeywordsParalleldatabase,Datadecluster,RCMD.1.引言在基于機(jī)群系統(tǒng)的并行數(shù)據(jù)庫研究中,并行數(shù)據(jù)庫物理存儲方法是一個(gè)重要的研究內(nèi)容。并行數(shù)據(jù)庫物理存儲方法是指如何在多個(gè)處理機(jī)之間分布各種數(shù)據(jù)庫對象,最小化查詢處理時(shí)間。數(shù)據(jù)存儲方法

4、對并行數(shù)據(jù)庫系統(tǒng)的查詢性能有著極大的影響,在查詢處理過程中,如果數(shù)據(jù)分布不合理,系統(tǒng)的并行性就得不到充分的發(fā)揮,降低了系統(tǒng)的查詢處理能力[1]。目前,在數(shù)據(jù)分布策略方面已開展了大量的研究工作,提出了很多有效的并行數(shù)據(jù)分布方法,如Round-Robin[2]、Hash[3]、Range-Partition[4]、CMD[5]等數(shù)據(jù)分布方法。Round-Robin方法以輪轉(zhuǎn)的方式將關(guān)系的元組分布到各個(gè)處理機(jī)上,當(dāng)關(guān)系上的操作需要存取大量元組時(shí),一般采用這種分布方法,但是Round-Robin不能有效的支持具有低選擇性謂詞的查詢,這樣的查

5、詢僅存取較少的元組,而Round-Robin方法卻要求所有的處理機(jī)都啟動工作,降低了系統(tǒng)的效率。Hash分布方法選擇關(guān)系的一個(gè)屬性進(jìn)行Hash,然后根據(jù)Hash值將關(guān)系分布到各個(gè)處理機(jī)上。這種分布方法可以有效的支持劃分屬性上精確匹配謂詞的查詢,但是Hash方法不能保證數(shù)據(jù)均勻地分布在多個(gè)處理機(jī)上。Range-Partition的分布方法是將關(guān)系的一個(gè)屬性的值域分成若干個(gè)區(qū)間,然后根據(jù)這些區(qū)間將關(guān)系分布到各個(gè)處理機(jī)上。這種分布方法可以有效地支持要求大數(shù)據(jù)量存取的查詢和在劃分屬性上具有低選擇性謂詞的數(shù)據(jù)操作。但是Range-Partit

6、ion分布方法可能引起兩個(gè)問題。第一個(gè)問題是數(shù)據(jù)在處理機(jī)之間分布不均勻;另一個(gè)問題是工作負(fù)載的不均勻,在最壞的情況下,一個(gè)訪問大量數(shù)據(jù)查詢的執(zhí)行可能集中在一個(gè)處理機(jī)上[1]。CMD方法數(shù)據(jù)劃分對稱地在所有屬性上進(jìn)行,可以有效地支持各種選擇謂詞的查詢,經(jīng)過CMD方法劃分的關(guān)系是部分有序的[5]。但是CMD方法在處理連接操作時(shí)由于通訊開銷較大,效率并不理想。Hash和Range數(shù)據(jù)分布方法可以有效支持劃分屬性上的連接操作,但是Hash分布方法不能有效支持帶選擇性謂詞的查詢,而Range分布方法只支持劃分屬性上的選擇性謂詞查詢。在數(shù)據(jù)庫的

7、應(yīng)用中,查詢的類型是多樣的。上述四種數(shù)據(jù)分布方法都是只適用于某些類型的查詢,而在處理其它類型的查詢則效率較低,甚至?xí)?dǎo)致嚴(yán)重負(fù)載傾斜或大量的網(wǎng)絡(luò)通訊的出現(xiàn),系統(tǒng)整體的查詢處理效率不能達(dá)到最優(yōu)狀態(tài)。本文針對這個(gè)問題,提出了一種新的數(shù)據(jù)分布方法Range-CMD(簡稱RCMD)。RCMD數(shù)據(jù)分布方法具有如下的特點(diǎn):1)RCMD方法能夠有效地支持多種類型的查詢,如多選擇性謂詞的查詢、精確匹配的查詢、連接查詢等等;2)RCMD分布的關(guān)系在各個(gè)屬性上都是部分排序的,因此基于RCMD的連接等操作的實(shí)現(xiàn)算法比現(xiàn)有的算法有效;3)RCMD將關(guān)系劃分

8、為多個(gè)超長方體,每個(gè)超長方體存儲在一個(gè)磁盤物理頁面中,RCMD為每個(gè)超長方體建立了索引,利用該索引在處理查詢時(shí)能夠有效地減少磁盤I/O。本文的貢獻(xiàn)在于提出了一種新的數(shù)據(jù)分布方法RCMD及其物理存儲結(jié)構(gòu),并將RCMD和已有的數(shù)據(jù)分布方法

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。