北京大學博士研究生學位論文

ID:27263641

大?。?.40 MB

頁數(shù):114頁

時間:2018-12-02

北京大學博士研究生學位論文_第1頁
北京大學博士研究生學位論文_第2頁
北京大學博士研究生學位論文_第3頁
北京大學博士研究生學位論文_第4頁
北京大學博士研究生學位論文_第5頁
資源描述:

《北京大學博士研究生學位論文》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫

1、北京大學博士研究生學位論文題目:搜索引擎檢索系統(tǒng)的效率優(yōu)化與效果評估研究姓名:彭波學號:10108808院系:計算機科學技術(shù)系專業(yè):計算機系統(tǒng)結(jié)構(gòu)研究方向:計算機網(wǎng)絡(luò)與分布式系統(tǒng)導師:李曉明教授2004年5月北京大學博士研究生學位論文題目:搜索引擎檢索系統(tǒng)的效率優(yōu)化與效果評估研究姓名:彭波學號:10108808院系:計算機科學技術(shù)系專業(yè):計算機系統(tǒng)結(jié)構(gòu)研究方向:計算機網(wǎng)絡(luò)與分布式系統(tǒng)導師:李曉明教授2004年5月OnEfficiencyOptimizationandEffectivenessEvalu

2、ationofSearchEngineRetrievalSystemDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementForthedegreeofDoctorofNaturalScienceByPengBo(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLIMay,2004版權(quán)聲明任何收存和保管本論文各種版本的單

3、位和個人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔法律責任。摘要本文研究工作是國家重點基礎(chǔ)研究發(fā)展規(guī)劃項目“網(wǎng)絡(luò)環(huán)境下海量信息組織與處理的理論與方法研究”的一部分;針對Web搜索引擎應(yīng)用背景,以構(gòu)建大規(guī)模、高性能搜索引擎的檢索系統(tǒng)為目標,系統(tǒng)地研究了檢索系統(tǒng)的效率問題和效果評估問題,提出了若干關(guān)鍵技術(shù),在大量實驗和真實數(shù)據(jù)分析的基礎(chǔ)上,得到了如下研究成果和結(jié)論:1)提出了一種混合索引技術(shù)。該技術(shù)針對中文信息檢索索引

4、詞選擇的問題,通過結(jié)合中文自動分詞與未登錄詞識別技術(shù),把基本分詞結(jié)果與在識別生成的擴展詞典上的分詞結(jié)果都選擇作為索引詞。通過在實際系統(tǒng)的應(yīng)用實踐,表明該技術(shù)能有效提高短語檢索效率。2)提出了一種倒排文件分塊組織方法,它兼顧了文檔編號序列和文檔權(quán)值序列在檢索系統(tǒng)性能中的不同作用,為綜合優(yōu)化系統(tǒng)性能提供了一個可操作的框架。和已有相關(guān)工作相比,這一研究基于搜索引擎應(yīng)用背景,通過搜索引擎系統(tǒng)的實際數(shù)據(jù),建立了一個檢索性能模型,在此模型基礎(chǔ)上研究分塊組織策略對性能的影響和分塊參數(shù)的優(yōu)選。研究結(jié)果表明,這一分塊組

5、織策略可以有效提高檢索效率。3)倒排文件緩存是檢索系統(tǒng)效率優(yōu)化的重要技術(shù)。結(jié)合到大規(guī)模檢索過程中磁盤I/O以及操作系統(tǒng)頁面調(diào)度的特點,本文研究了倒排文件緩存優(yōu)化設(shè)計中的性能指標選擇、替換算法、頁面大小和倒排文件組織方式對緩存性能影響等問題。研究結(jié)果為倒排文件緩存優(yōu)化設(shè)計提供了指導。4)針對搜索引擎檢索系統(tǒng)效果評估中的若干問題,設(shè)計并實現(xiàn)了一個搜索引擎檢索系統(tǒng)檢索效果評估的實驗環(huán)境?;谒阉饕娴挠脩舨樵?nèi)罩?,按查詢類別構(gòu)建了用戶查詢集合。對不同搜索引擎搜集系統(tǒng)搜集網(wǎng)頁集合的差異、評測員結(jié)果之間的差異對

6、評估實驗的穩(wěn)定性、連續(xù)性的相關(guān)度評分分值以及對應(yīng)的評估指標、查詢集合大小對評估實驗的穩(wěn)定性等問題進行了研究,結(jié)果對于進行有效的檢索評估實驗有重要指導意義。?96?5)基于對搜索引擎用戶點擊日志數(shù)據(jù)的分析,提出了一種自動構(gòu)建評估實驗相關(guān)結(jié)果集合與進行自動評估實驗的方法。實驗顯示這一自動方法得到的結(jié)果和人工評估實驗結(jié)果保持一致,并且對不同查詢集合保持穩(wěn)定。這一方法為解決大規(guī)模數(shù)據(jù)集上檢索系統(tǒng)評估的可擴展性問題提供了一條有效的途徑。關(guān)鍵詞:萬維網(wǎng),搜索引擎,信息檢索,檢索效率,性能,評估?96?Abstra

7、ctSearchengineisnowaninfrastructureoftheinformationsociety.Inthisdissertation,westudiedtheperformanceoflarge-scaleretrievalsystemofsearchengine;especiallyfocusedonefficiencyoptimizationandeffectivenessevaluation.Themaincontributionsinclude:1.Amixtureind

8、extermselectionmethodisproposed.ByintegratingthetechniquesofChineseautomaticwordsegmentationandunknownworddetection,weselectboththeresultsofwordsegmentationonthebasicdictionaryandtheresultsontheextendeddictionaryconsistingofdetec

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。
关闭