資源描述:
《基于termid序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、學(xué)校代風(fēng)10004密級(jí):公開(kāi)如交分#^BEIJINGJIAOTONGUNIVERSITY碩±學(xué)位論文3攝M基于TermID序列排序的標(biāo)識(shí)符重分配自倒排索引麵硏究:心',作者姓名郭爭(zhēng)文?學(xué)科專(zhuān)業(yè)計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)教師霍有利副教授1;培養(yǎng)院系計(jì)算機(jī)與信息技術(shù)學(xué)院議^’*而可巧麵;乃二円固*進(jìn)?罕;iii?a於《道乂攀碩±學(xué)位論文基于Term瓜序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究ResearchonInvertedI
2、ndexComressionBasedonTermIDpSeuencesSortinofIde打tifiers民eassinmentqgg作者:郭爭(zhēng)文導(dǎo)師:霍有利北京交通大學(xué)2016年3月學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解北京交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定。特授權(quán)北京交通大學(xué)可W將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,提供閱覽服務(wù),并采用影印、縮印或掃描等復(fù)制手段保存、匯編W供查閱和借閱。同意學(xué)校向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論
3、文的復(fù)印件和磁盤(pán)。學(xué)??桑诪榇嬖陴^際合作關(guān)系的兄弟髙校用戶(hù)提供文獻(xiàn)傳遞服務(wù)和交換服務(wù)。(保密的學(xué)位論文在解密后適用本授權(quán)說(shuō)明)學(xué)位論文作者簽名:導(dǎo)師簽名:炒簽字日期:>年j月>^簽字日期:如《年月萬(wàn)《2^:學(xué)校代碼:10004密級(jí)公開(kāi)北京交通大學(xué)碩±學(xué)位論文基于TermID序列排序的標(biāo)識(shí)符重分配的倒排索引壓縮研究ResearchonInvertedIndexCompressionBasedonTermIDSeuencesSortinofI
4、dentifiersReassignmentqg3120388:1作者姓名:郭爭(zhēng)文學(xué)號(hào)導(dǎo)師姓名;霍有利職稱(chēng);副教授:學(xué)位類(lèi)別:工學(xué)學(xué)位級(jí)別碩±:學(xué)科專(zhuān)業(yè):計(jì)算機(jī)科學(xué)與技術(shù)研究方向信息檢索北京交通大學(xué)2016年3月i致謝時(shí)光似箭,歲月如梭,二年半的研究生生活馬上就要結(jié)束了。在這段寶貴而短暫的研究生生活中,我不僅收獲了專(zhuān)業(yè)知識(shí),還學(xué)到了老師們嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度,使我個(gè)人的綜合素質(zhì)有很大提高,。在即將畢業(yè)之際我由衷地對(duì)學(xué)校、老師和同學(xué)表達(dá)我的感謝。
5、、首先,我要感謝我的導(dǎo)師霍有利老師指導(dǎo)。我的論文是在嬰有利老師的悉屯下完成的,崔有利老師淵博的學(xué)識(shí)、嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和科學(xué)的工作方法給了我極大的幫助和影響,并將使我受益終身。在崔老師的指導(dǎo)下,我不僅學(xué)習(xí)到了豐富、的科研知識(shí),,同時(shí)更好地明確了未來(lái)的人生發(fā)展方向在此我衷屯感謝兩年多來(lái)、指導(dǎo)霍老師對(duì)我的關(guān)也和耐屯。真誠(chéng)感謝毛福林碩±,他不僅在學(xué)術(shù)上給我指引,而且在生活上予幫助,再此向他表達(dá)我的感激之情。我還要感謝我的科研伙伴楊柳、李俊廷和孫夢(mèng)等同學(xué),在實(shí)驗(yàn)室學(xué)習(xí)及撰寫(xiě)論文期間
6、,他們對(duì)我論文中的相關(guān)研究工作給予了熱情幫助,我在此向他們表達(dá)我的感激之情。最后,在此特別感謝我的父母,他們的理解和支持使我能夠在學(xué)校專(zhuān)也完成我的學(xué)業(yè)。北京交通大學(xué)碩±學(xué)位論文摘要由于信息科技的飛速發(fā)展,,數(shù)據(jù)爆炸式增長(zhǎng)形成了人類(lèi)史上前所未有的海一量文本信息,,。面對(duì)海量的文本信息倒排索引作為種有效的全文索引技術(shù)能夠快速準(zhǔn)確地幫助人們查找所需要的信息。但是海量的文本信息形成了規(guī)模龐大的倒排索引,其規(guī)模最大可達(dá)原文的300%,所レッ倒排索引的壓縮是十分必要的。一o
7、c倒排索引生成算法的般流程是dID分配、Postingists生成和PostinistsLgL壓縮。常見(jiàn)的標(biāo)識(shí)符分配算法有基于URL排序的標(biāo)識(shí)符分配算法和基于交叉的標(biāo)識(shí)符重分配算法;常見(jiàn)的PostingLists壓縮算法有UnaryCode、VariableByteCode、Sime-。pl9和PFo瓜eha等本文提出了基于TermlD序列排序的標(biāo)識(shí)符重分配算法。通過(guò)遍歷己創(chuàng)建的倒排索引生成正排表,規(guī)定正排表內(nèi)ternilD序列的排序規(guī)則,并按照該規(guī)則對(duì)正排表中
8、的文檔記錄進(jìn)行排序得到新順序的文檔序列,然后根據(jù)新的文檔順序依次為文檔分配新標(biāo)識(shí)符,重新創(chuàng)建倒排索引。)本文實(shí)現(xiàn)了基于URL排序的標(biāo)識(shí)符分配算法(URL、基于交叉的標(biāo)識(shí)符重分配算法aBDA)、基于TermlD序列排序的標(biāo)識(shí)符重分配算法(SBDRA)等標(biāo)識(shí)e--符分配算法和VByt、Simple9、Simple16、NewPFD、OptPFD、PForDelta等posting,lists壓縮算法。使用Wikip