基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用

基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用

ID:36618646

大?。?.26 MB

頁數(shù):79頁

時(shí)間:2019-05-13

基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用_第1頁
基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用_第2頁
基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用_第3頁
基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用_第4頁
基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用_第5頁
資源描述:

《基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、論文題目基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用專業(yè)學(xué)位類別工程碩士學(xué)號(hào)201192270149作者姓名丁楚指導(dǎo)教師白金平高級(jí)工程師分類號(hào)密級(jí)注1UDC學(xué)位論文基于Lucene的基礎(chǔ)排序算法的研究及其改進(jìn)算法的應(yīng)用(題名和副題名)丁楚(作者姓名)指導(dǎo)教師白金平高工電子科技大學(xué)成都陳磊剛高工三基音響有限公司東莞(姓名、職稱、單位名稱)申請(qǐng)學(xué)位級(jí)別碩士專業(yè)學(xué)位類別工程碩士工程領(lǐng)域名稱軟件工程提交論文日期2015.10論文答辯日期2015.12.3學(xué)位授予單位和日期電子科技大學(xué)2015年12月答辯委員會(huì)主席評(píng)閱人注1:注明《國(guó)際十進(jìn)分類法UDC》的類號(hào)。RESEARCHANDAP

2、PLICATIONOFSORTINGALGORITHMBASEDONLUCENEAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMasterofEngineeringMajor:Author:DingChuAdvisor:BaiJinPingInstituteofElectronicandInformationSchool:EngineeringinDongguan獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外

3、,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。作者簽名:日期:年月日論文使用授權(quán)本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)作者簽名:導(dǎo)師簽名:日期:年月日摘要摘要進(jìn)入21世紀(jì)以來,互

4、聯(lián)網(wǎng)得到了迅速發(fā)展,互聯(lián)網(wǎng)的信息資源越來越豐富,信息量越來越大,呈指數(shù)級(jí)增長(zhǎng)。而人們對(duì)互聯(lián)網(wǎng)的依賴越來越緊密,在互聯(lián)網(wǎng)上查詢信息資源也越來越頻繁?;ヂ?lián)網(wǎng)的信息資源如此巨大,想要快速、準(zhǔn)確地在海量的信息資源庫中查詢到所需的資源,就必須使用良好的搜索引擎工具。搜索引擎為網(wǎng)絡(luò)用戶提供了信息檢索服務(wù),屬于互聯(lián)網(wǎng)應(yīng)用軟件,該系統(tǒng)按照一定的檢索策略為用戶提供信息檢索服務(wù),并將檢索結(jié)果排序?yàn)橛脩籼峁┗ヂ?lián)網(wǎng)信息查詢服務(wù)。目前,隨著搜索引擎技術(shù)的發(fā)展,越來越多的機(jī)構(gòu)和人員將搜索引擎作為研究熱點(diǎn),為此,Apache基金會(huì)推出了一個(gè)開源的全文搜索引擎工具包Lucene。本論文采取兩種研究方案,先在Lucene

5、全文搜索的功能角度去研究數(shù)據(jù)排序算法,通過研究現(xiàn)有的排序算法:倒排算法查詢速度快、存儲(chǔ)空間小,可以提供排序查詢功能但是不能快速的支持短語查詢,不能很好適應(yīng)中文等詞邊界未確定語言。后綴樹和后綴數(shù)組索引模型支持短語查詢與自索引功能并且對(duì)詞邊界未確定語言有很好適應(yīng)性但是不支持排序查詢;再分析各自的優(yōu)缺點(diǎn)進(jìn)行對(duì)比,進(jìn)而得出其適用于Lucene全文檢索領(lǐng)域的算法。再通過對(duì)常用算法的應(yīng)用研究,提出一種改進(jìn)的數(shù)據(jù)排序算法:SA-PL索引模型,該模型利用后綴數(shù)組可以支持短語查詢、自索引和詞邊界未確定語言適應(yīng)性且與后綴樹相比存儲(chǔ)空間小的特點(diǎn),將后綴數(shù)組與倒排表相結(jié)合。根據(jù)SA-PL索引模型概念,設(shè)計(jì)了SA

6、-PL-0索引模型。在SA-PL-0的基礎(chǔ)上提出一種通過移除較短倒排表對(duì)索引空間進(jìn)一步壓縮的索引模型SA-PL-1。該模型可提高查詢速度、減少存儲(chǔ)空間,進(jìn)而實(shí)現(xiàn)Lucene環(huán)境下數(shù)據(jù)排序的高效性。最后選擇合適的平臺(tái)和環(huán)境對(duì)改進(jìn)算法進(jìn)行實(shí)驗(yàn)檢驗(yàn),實(shí)驗(yàn)表明,SA-PL-0和SA-PL-1索引模型可以提供排序查詢、短語查詢和自索引功能并且對(duì)詞邊界未確定語言有很好適應(yīng)性,其索引存儲(chǔ)空間和索引查詢時(shí)間綜合性能顯著優(yōu)于以往的索引模型。關(guān)鍵詞:Lucene,倒排索引,后綴數(shù)組,SA-PL索引模型IABSTRACTABSTRACTSincethetwenty-firstCentury,theIntern

7、ethasbeendevelopingrapidly,theinformationresourcesoftheInternetaremoreandmoreabundant,andtheinformationquantityshowsanexponentialgrowth.PeoplebecomemoreandmoreclosetotheInternetandtheinformationqueryaregettingincreasin

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。