基于指令級(jí)并行的倒排索引壓縮算法-論文.pdf

基于指令級(jí)并行的倒排索引壓縮算法-論文.pdf

ID:57924586

大?。?69.71 KB

頁數(shù):10頁

時(shí)間:2020-04-14

基于指令級(jí)并行的倒排索引壓縮算法-論文.pdf_第1頁
基于指令級(jí)并行的倒排索引壓縮算法-論文.pdf_第2頁
基于指令級(jí)并行的倒排索引壓縮算法-論文.pdf_第3頁
基于指令級(jí)并行的倒排索引壓縮算法-論文.pdf_第4頁
基于指令級(jí)并行的倒排索引壓縮算法-論文.pdf_第5頁
資源描述:

《基于指令級(jí)并行的倒排索引壓縮算法-論文.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、計(jì)算機(jī)研究與發(fā)展DOI:10.7544/issn1000—1239.2015.20131548JournalofComputerResearchandDevelopment52(5):995—1004,2015基于指令級(jí)并行的倒排索引壓縮算法閆宏飛張旭東單棟棟。毛先領(lǐng)。趙鑫(北京大學(xué)網(wǎng)絡(luò)與信息系統(tǒng)研究所北京’100871)。(淘寶(中國)軟件有限公司杭州312000)。(北京理工大學(xué)北京100081)(yhf@net.pku.edu.cn)SIMD—BasedInvertedIndexCompressionAlgorithmsYanHongfei,ZhangX

2、udong,ShanDongdong。,MaoXianling。,andZhaoXin(InstituteofNetworkComputingandInformationSystems,PekingUniversity,Beijing100871)(Taobao(China)SoftwareCo.,Ltd,Hangzhou312000)。(BeijingInstituteofTechnology,Beijing100081)AbstractTherapidgrowthoftextinformaUonhasbroughtaboutnewchallengestot

3、raditionalinformationretrieva1.Inlargesearchengines,indexingisrequiredtohelpusersacquireimportantdatatheyneed,andtechniquesofinvertedindexhavegreatinfluenceontheefficiencyofqueryprocessinginsuchsystems.Thedataininvertedindexisstoredintheformofarraysofintegers,andtechniquesofcompress

4、ionarerequiredtoreducethecostofstoringsuchdataindisksandmemory,aswellastoboostthehitrateofCPUcacheandspeeduptransferringdata.Therefore,itisnecessarytochooseahighlyefficientcompressionalgorithmtoprocessqueryeffectively.Inthispaper,weproposetwoinstruction—level—parallelizedalgorithms,

5、i.e.SIMD-PBandSIMD—PFD,whichimprovetwocompetitivecompressionalgorithmsrespectively,i.e.PackedBinaryandPForDelta,andexploitSIMDinstructionstoacceleratethePackandUnpackprocedureinthealgorithms.ExperimentsbasedonpublicdatasetsofGOV2andClueWeb09Bshowthatournovelalgorithmshavegoodperform

6、anceonencodinganddecodingspeedwithoutimpairingthecompressionratio,andoutperformtheformerfastestinvertedlistcompressionalgorithmsbyatmost17,withrespecttodecompressionspeed.Furthermore。experimentsindicatethatournovelalgorithmshavebetterperformanceonIongerposting1istandlargerblocksizew

7、.r.t.decodingspeed.Keywordssingleinstructionmultipledata(SIMD);invertedindex;compression;integerencoding;informationretrieval摘要文本信息數(shù)量的快速增長給傳統(tǒng)的信息檢索技術(shù)帶來了新的挑戰(zhàn).搜索引擎通常使用倒排索引來高效地處理查詢.為了減少存儲(chǔ)開銷和加快訪問速度,倒排索引通常被壓縮存儲(chǔ).因此,如何選擇一個(gè)高性能的壓縮算法對(duì)高效查詢處理是非常有必要的.在已有倒排鏈壓縮算法PackedBinary和PForDelta的基礎(chǔ)上,利用CPU的超標(biāo)量

8、特性和SIMD向量指令集,將其壓縮和解

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。