基于termid序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究

基于termid序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究

ID:35058883

大小:6.19 MB

頁(yè)數(shù):71頁(yè)

時(shí)間:2019-03-17

基于termid序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究_第1頁(yè)
基于termid序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究_第2頁(yè)
基于termid序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究_第3頁(yè)
基于termid序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究_第4頁(yè)
基于termid序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究_第5頁(yè)
資源描述:

《基于termid序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)

1、學(xué)校代風(fēng)10004密級(jí):公開(kāi)如交分#^BEIJINGJIAOTONGUNIVERSITY碩±學(xué)位論文3攝M基于TermID序列排序的標(biāo)識(shí)符重分配自倒排索引麵硏究:心',作者姓名郭爭(zhēng)文?學(xué)科專(zhuān)業(yè)計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)教師霍有利副教授1;培養(yǎng)院系計(jì)算機(jī)與信息技術(shù)學(xué)院議^’*而可巧麵;乃二円固*進(jìn)?罕;iii?a於《道乂攀碩±學(xué)位論文基于Term瓜序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究ResearchonInvertedI

2、ndexComressionBasedonTermIDpSeuencesSortinofIde打tifiers民eassinmentqgg作者:郭爭(zhēng)文導(dǎo)師:霍有利北京交通大學(xué)2016年3月學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解北京交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定。特授權(quán)北京交通大學(xué)可W將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,提供閱覽服務(wù),并采用影印、縮印或掃描等復(fù)制手段保存、匯編W供查閱和借閱。同意學(xué)校向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論

3、文的復(fù)印件和磁盤(pán)。學(xué)??桑诪榇嬖陴^際合作關(guān)系的兄弟髙校用戶(hù)提供文獻(xiàn)傳遞服務(wù)和交換服務(wù)。(保密的學(xué)位論文在解密后適用本授權(quán)說(shuō)明)學(xué)位論文作者簽名:導(dǎo)師簽名:炒簽字日期:>年j月>^簽字日期:如《年月萬(wàn)《2^:學(xué)校代碼:10004密級(jí)公開(kāi)北京交通大學(xué)碩±學(xué)位論文基于TermID序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究ResearchonInvertedIndexCompressionBasedonTermIDSeuencesSortinofI

4、dentifiersReassignmentqg3120388:1作者姓名:郭爭(zhēng)文學(xué)號(hào)導(dǎo)師姓名;霍有利職稱(chēng);副教授:學(xué)位類(lèi)別:工學(xué)學(xué)位級(jí)別碩±:學(xué)科專(zhuān)業(yè):計(jì)算機(jī)科學(xué)與技術(shù)研究方向信息檢索北京交通大學(xué)2016年3月i致謝時(shí)光似箭,歲月如梭,二年半的研究生生活馬上就要結(jié)束了。在這段寶貴而短暫的研究生生活中,我不僅收獲了專(zhuān)業(yè)知識(shí),還學(xué)到了老師們嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度,使我個(gè)人的綜合素質(zhì)有很大提高,。在即將畢業(yè)之際我由衷地對(duì)學(xué)校、老師和同學(xué)表達(dá)我的感謝。

5、、首先,我要感謝我的導(dǎo)師霍有利老師指導(dǎo)。我的論文是在嬰有利老師的悉屯下完成的,崔有利老師淵博的學(xué)識(shí)、嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和科學(xué)的工作方法給了我極大的幫助和影響,并將使我受益終身。在崔老師的指導(dǎo)下,我不僅學(xué)習(xí)到了豐富、的科研知識(shí),,同時(shí)更好地明確了未來(lái)的人生發(fā)展方向在此我衷屯感謝兩年多來(lái)、指導(dǎo)霍老師對(duì)我的關(guān)也和耐屯。真誠(chéng)感謝毛福林碩±,他不僅在學(xué)術(shù)上給我指引,而且在生活上予幫助,再此向他表達(dá)我的感激之情。我還要感謝我的科研伙伴楊柳、李俊廷和孫夢(mèng)等同學(xué),在實(shí)驗(yàn)室學(xué)習(xí)及撰寫(xiě)論文期間

6、,他們對(duì)我論文中的相關(guān)研究工作給予了熱情幫助,我在此向他們表達(dá)我的感激之情。最后,在此特別感謝我的父母,他們的理解和支持使我能夠在學(xué)校專(zhuān)也完成我的學(xué)業(yè)。北京交通大學(xué)碩±學(xué)位論文摘要由于信息科技的飛速發(fā)展,,數(shù)據(jù)爆炸式增長(zhǎng)形成了人類(lèi)史上前所未有的海一量文本信息,,。面對(duì)海量的文本信息倒排索引作為種有效的全文索引技術(shù)能夠快速準(zhǔn)確地幫助人們查找所需要的信息。但是海量的文本信息形成了規(guī)模龐大的倒排索引,其規(guī)模最大可達(dá)原文的300%,所レッ倒排索引的壓縮是十分必要的。一o

7、c倒排索引生成算法的般流程是dID分配、Postingists生成和PostinistsLgL壓縮。常見(jiàn)的標(biāo)識(shí)符分配算法有基于URL排序的標(biāo)識(shí)符分配算法和基于交叉的標(biāo)識(shí)符重分配算法;常見(jiàn)的PostingLists壓縮算法有UnaryCode、VariableByteCode、Sime-。pl9和PFo瓜eha等本文提出了基于TermlD序列排序的標(biāo)識(shí)符重分配算法。通過(guò)遍歷己創(chuàng)建的倒排索引生成正排表,規(guī)定正排表內(nèi)ternilD序列的排序規(guī)則,并按照該規(guī)則對(duì)正排表中

8、的文檔記錄進(jìn)行排序得到新順序的文檔序列,然后根據(jù)新的文檔順序依次為文檔分配新標(biāo)識(shí)符,重新創(chuàng)建倒排索引。)本文實(shí)現(xiàn)了基于URL排序的標(biāo)識(shí)符分配算法(URL、基于交叉的標(biāo)識(shí)符重分配算法aBDA)、基于TermlD序列排序的標(biāo)識(shí)符重分配算法(SBDRA)等標(biāo)識(shí)e--符分配算法和VByt、Simple9、Simple16、NewPFD、OptPFD、PForDelta等posting,lists壓縮算法。使用Wikip

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。