資源描述:
《1800一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法rcmd》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、一種有效的并行數(shù)據(jù)庫數(shù)據(jù)分布方法RCMD)本文研究得到了國家863計(jì)劃(2005AA4Z3080)基金支持。艾春宇碩士,助教。李建中博士導(dǎo)師,教授。高宏博士,副教授。AnEfficientDataDeclusteringMethodRCMDinParallelDatabase艾春宇1李建中1,2高宏2(黑龍江大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院哈爾濱150080)1(哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院哈爾濱150001)2AbstractDatadeclusteringmethodshavegreatinfluenceonthequeryproc
2、essingperformanceinshared-nothingparalleldatabasesystem.Theexisteddatadeclusteringmethodshaveasamedisadvantagethattheyareefficientonlyforsomekindsofqueries,andworsefortheotherkindsofqueries.Inthispaper,weproposeanewdatadeclusteringmethod-RCMD,whichiseffectiveforallkind
3、sofqueries.TheoreticalanalysisandexperimentalresultsshowthatRCMDoutperformstheexistedmethodswhileprocessingqueriesinparalleldatabase.KeywordsParalleldatabase,Datadecluster,RCMD.1.引言在基于機(jī)群系統(tǒng)的并行數(shù)據(jù)庫研究中,并行數(shù)據(jù)庫物理存儲方法是一個(gè)重要的研究內(nèi)容。并行數(shù)據(jù)庫物理存儲方法是指如何在多個(gè)處理機(jī)之間分布各種數(shù)據(jù)庫對象,最小化查詢處理時(shí)間。數(shù)據(jù)存儲方法
4、對并行數(shù)據(jù)庫系統(tǒng)的查詢性能有著極大的影響,在查詢處理過程中,如果數(shù)據(jù)分布不合理,系統(tǒng)的并行性就得不到充分的發(fā)揮,降低了系統(tǒng)的查詢處理能力[1]。目前,在數(shù)據(jù)分布策略方面已開展了大量的研究工作,提出了很多有效的并行數(shù)據(jù)分布方法,如Round-Robin[2]、Hash[3]、Range-Partition[4]、CMD[5]等數(shù)據(jù)分布方法。Round-Robin方法以輪轉(zhuǎn)的方式將關(guān)系的元組分布到各個(gè)處理機(jī)上,當(dāng)關(guān)系上的操作需要存取大量元組時(shí),一般采用這種分布方法,但是Round-Robin不能有效的支持具有低選擇性謂詞的查詢,這樣的查
5、詢僅存取較少的元組,而Round-Robin方法卻要求所有的處理機(jī)都啟動工作,降低了系統(tǒng)的效率。Hash分布方法選擇關(guān)系的一個(gè)屬性進(jìn)行Hash,然后根據(jù)Hash值將關(guān)系分布到各個(gè)處理機(jī)上。這種分布方法可以有效的支持劃分屬性上精確匹配謂詞的查詢,但是Hash方法不能保證數(shù)據(jù)均勻地分布在多個(gè)處理機(jī)上。Range-Partition的分布方法是將關(guān)系的一個(gè)屬性的值域分成若干個(gè)區(qū)間,然后根據(jù)這些區(qū)間將關(guān)系分布到各個(gè)處理機(jī)上。這種分布方法可以有效地支持要求大數(shù)據(jù)量存取的查詢和在劃分屬性上具有低選擇性謂詞的數(shù)據(jù)操作。但是Range-Partit
6、ion分布方法可能引起兩個(gè)問題。第一個(gè)問題是數(shù)據(jù)在處理機(jī)之間分布不均勻;另一個(gè)問題是工作負(fù)載的不均勻,在最壞的情況下,一個(gè)訪問大量數(shù)據(jù)查詢的執(zhí)行可能集中在一個(gè)處理機(jī)上[1]。CMD方法數(shù)據(jù)劃分對稱地在所有屬性上進(jìn)行,可以有效地支持各種選擇謂詞的查詢,經(jīng)過CMD方法劃分的關(guān)系是部分有序的[5]。但是CMD方法在處理連接操作時(shí)由于通訊開銷較大,效率并不理想。Hash和Range數(shù)據(jù)分布方法可以有效支持劃分屬性上的連接操作,但是Hash分布方法不能有效支持帶選擇性謂詞的查詢,而Range分布方法只支持劃分屬性上的選擇性謂詞查詢。在數(shù)據(jù)庫的
7、應(yīng)用中,查詢的類型是多樣的。上述四種數(shù)據(jù)分布方法都是只適用于某些類型的查詢,而在處理其它類型的查詢則效率較低,甚至?xí)?dǎo)致嚴(yán)重負(fù)載傾斜或大量的網(wǎng)絡(luò)通訊的出現(xiàn),系統(tǒng)整體的查詢處理效率不能達(dá)到最優(yōu)狀態(tài)。本文針對這個(gè)問題,提出了一種新的數(shù)據(jù)分布方法Range-CMD(簡稱RCMD)。RCMD數(shù)據(jù)分布方法具有如下的特點(diǎn):1)RCMD方法能夠有效地支持多種類型的查詢,如多選擇性謂詞的查詢、精確匹配的查詢、連接查詢等等;2)RCMD分布的關(guān)系在各個(gè)屬性上都是部分排序的,因此基于RCMD的連接等操作的實(shí)現(xiàn)算法比現(xiàn)有的算法有效;3)RCMD將關(guān)系劃分
8、為多個(gè)超長方體,每個(gè)超長方體存儲在一個(gè)磁盤物理頁面中,RCMD為每個(gè)超長方體建立了索引,利用該索引在處理查詢時(shí)能夠有效地減少磁盤I/O。本文的貢獻(xiàn)在于提出了一種新的數(shù)據(jù)分布方法RCMD及其物理存儲結(jié)構(gòu),并將RCMD和已有的數(shù)據(jù)分布方法