資源描述:
《基于學(xué)習(xí)的分布式局部敏感哈希算法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號:密級05111UDC:單位代碼?乂是洛事乂拿全日制應(yīng)用型碩±研究生學(xué)位論文基于學(xué)習(xí)的分布式局部敏感哈希算法研究劉暢指導(dǎo)教師曲雲(yún)錦教授企業(yè)導(dǎo)師馮冰高級工程師申請學(xué)位類別工程碩±工程領(lǐng)域計(jì)算機(jī)技術(shù)學(xué)位授予單位大連海事大學(xué)2016年6月分類號密級UDC10151單位代碼大連海事大學(xué)工程碩±學(xué)位論文基于學(xué)習(xí)的分布式局部敏感哈希算法研巧(學(xué)位論文形式;應(yīng)用研究)劉暢指導(dǎo)教師曲委続職稱教授企業(yè)導(dǎo)師馮冰職稱商級工程師學(xué)位授予單位大連海事大學(xué)申請學(xué)位
2、級別工程碩±工程領(lǐng)域計(jì)算機(jī)技術(shù)論文完成日期2016年6月答辯日期20化年6月答辯委員會主席Learn-litingBasedDistributedLocaySensitiveHashingA化份isSubmitted化DalianMaritimeUniversityInartialfulfillmentofthereuirementsforthedereeofpqgMasterofEnineeringgbyChanLiugComuterTechnolo(pgy)ThesisSuervisorr
3、ProfessorWenuQupyJTune2016大連海事大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)巧聲明本人鄭重聲明:本論文是在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究工作所取得的成果,撰寫""成碩±學(xué)位論文基于學(xué)習(xí)的分布式局部敏感哈希算法研究。除論文中已經(jīng)注明引用的內(nèi)容外,對論文的研究做出重要貢獻(xiàn)的個人和集體,均己在文中明確方式標(biāo)明。本論文中不包含任何未加明確注明的其他個人或集體己經(jīng)公開發(fā)表或未公開發(fā)表的成果。本聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者簽名;學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者及指導(dǎo)教師完全了解大連海事大學(xué)有關(guān)保留、使用研究生學(xué)位論文的
4、規(guī)定,艮P:大連海事大學(xué)有權(quán)保留并向國家有關(guān)部口或機(jī)構(gòu)送交學(xué)位論文的復(fù)?。崳娂碗娮影妫试S論文被査閱和借閱。本人授權(quán)大連海事太學(xué)可W將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,也可采用影印、縮印或掃描等復(fù)制手段保存和匯編學(xué)位論文。同意將本學(xué)位論文收錄到《中國優(yōu)秀博碩±學(xué)位論文全文數(shù)據(jù)庫》(中國學(xué)術(shù)期刊(光盤版》()電子雜志社)、《中國學(xué)位論文全文數(shù)據(jù)庫中國科學(xué)技術(shù)信息研巧所)等數(shù)據(jù)庫中,并W電子出版物形式出版發(fā)行和提供信息服務(wù)。保密的論文在解密后遵守此規(guī)定。本學(xué)位論文屬于:保密□在年解密后適用本授權(quán)書。/""不保額方(請?jiān)冢咨戏娇騼?nèi)打V)論文儲簽
5、導(dǎo)師簽名:日親年0日t月心中文摘要摘要隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)中充斥著各種各樣的海量高維數(shù)據(jù),在此數(shù)據(jù)中搜索目標(biāo)數(shù)據(jù)也隨之變得耗時和低效。為解決上述問風(fēng)近似近鄰搜索的、、概念及各種算法被陸續(xù)提出,并成為機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘模式識別等多種應(yīng)用中的一類基本算法,而局部敏感哈希算法被證明是解決髙維空間近鄰捜索的最有效算法之一。在處理大數(shù)據(jù)問題上,基于kevalue的分布式結(jié)構(gòu)被越來越廣泛的采用,如(y,)經(jīng)典的并行編程框架MapReduce、TwiterStorm和Spark等。結(jié)合(key,value)結(jié)構(gòu),對經(jīng)典局部敏感哈希算法進(jìn)行分布
6、式化,是近期的研巧熱點(diǎn)。為了保證查詢精度,需要建立大量的哈希表,這無疑將占用不少內(nèi)存空間,尤其是在處理高維數(shù)據(jù)的場合。同化在分布式背景下,由于哈希桶位于不同的節(jié)庶在不同的哈希桶進(jìn)行查。詢就會產(chǎn)生多次網(wǎng)絡(luò)調(diào)用,從而導(dǎo)致大量的網(wǎng)絡(luò)傳輸為了減少內(nèi)存占用和網(wǎng)絡(luò)調(diào)度費(fèi)用,LaeredLSH給出了采用0片個哈希表的分布式局部敏感哈希方案。不過y),研巧中發(fā)現(xiàn)會降低查詢的精度。一keva本文嘗試設(shè)計(jì)了種將學(xué)習(xí)算法應(yīng)用在基于(ylue的分布式結(jié)構(gòu),且在該,)索引基礎(chǔ)上進(jìn)行了基于MapReduce的空間近鄰查詢實(shí)現(xiàn)。本文的主要工作如下:(1)LB-LSHEntroL細(xì)的分布k
7、value提出了查詢精度更髙的算法,改進(jìn)了e型。py式(y,)模aeredLSH機(jī)-巧類似于Ly制,LBLSH在采用01個哈希表的情況下保證了查詢()精度3adoo-L細(xì),大大減少了網(wǎng)絡(luò)傳輸和頻繁的I/O。()在Hp平臺上實(shí)現(xiàn)了LB,一些哈希算法大量的實(shí)驗(yàn)結(jié)果顯示,該算法優(yōu)于當(dāng)前所采用的。>關(guān)11^1educe!巧維^/^;局部£<8&#;MapR英文摘要ABSTRAC