資源描述:
《北京大學(xué)博士研究生學(xué)位論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、北京大學(xué)博士研究生學(xué)位論文題目:搜索引擎檢索系統(tǒng)的效率優(yōu)化與效果評(píng)估研究姓名:彭波學(xué)號(hào):10108808院系:計(jì)算機(jī)科學(xué)技術(shù)系專業(yè):計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng)導(dǎo)師:李曉明教授2004年5月北京大學(xué)博士研究生學(xué)位論文題目:搜索引擎檢索系統(tǒng)的效率優(yōu)化與效果評(píng)估研究姓名:彭波學(xué)號(hào):10108808院系:計(jì)算機(jī)科學(xué)技術(shù)系專業(yè):計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng)導(dǎo)師:李曉明教授2004年5月OnEfficiencyOptimizationandEffectivenessEvaluationofSearchEngineRetrievalSystemDisse
2、rtationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementForthedegreeofDoctorofNaturalScienceByPengBo(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLIMay,2004版權(quán)聲明任何收存和保管本論文各種版本的單位和個(gè)人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律責(zé)任。摘要本文
3、研究工作是國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目“網(wǎng)絡(luò)環(huán)境下海量信息組織與處理的理論與方法研究”的一部分;針對(duì)Web搜索引擎應(yīng)用背景,以構(gòu)建大規(guī)模、高性能搜索引擎的檢索系統(tǒng)為目標(biāo),系統(tǒng)地研究了檢索系統(tǒng)的效率問題和效果評(píng)估問題,提出了若干關(guān)鍵技術(shù),在大量實(shí)驗(yàn)和真實(shí)數(shù)據(jù)分析的基礎(chǔ)上,得到了如下研究成果和結(jié)論:1)提出了一種混合索引技術(shù)。該技術(shù)針對(duì)中文信息檢索索引詞選擇的問題,通過(guò)結(jié)合中文自動(dòng)分詞與未登錄詞識(shí)別技術(shù),把基本分詞結(jié)果與在識(shí)別生成的擴(kuò)展詞典上的分詞結(jié)果都選擇作為索引詞。通過(guò)在實(shí)際系統(tǒng)的應(yīng)用實(shí)踐,表明該技術(shù)能有效提高短語(yǔ)檢索效率。2)提出了一種倒排文件分塊組織方法,它兼顧了文檔編號(hào)序
4、列和文檔權(quán)值序列在檢索系統(tǒng)性能中的不同作用,為綜合優(yōu)化系統(tǒng)性能提供了一個(gè)可操作的框架。和已有相關(guān)工作相比,這一研究基于搜索引擎應(yīng)用背景,通過(guò)搜索引擎系統(tǒng)的實(shí)際數(shù)據(jù),建立了一個(gè)檢索性能模型,在此模型基礎(chǔ)上研究分塊組織策略對(duì)性能的影響和分塊參數(shù)的優(yōu)選。研究結(jié)果表明,這一分塊組織策略可以有效提高檢索效率。3)倒排文件緩存是檢索系統(tǒng)效率優(yōu)化的重要技術(shù)。結(jié)合到大規(guī)模檢索過(guò)程中磁盤I/O以及操作系統(tǒng)頁(yè)面調(diào)度的特點(diǎn),本文研究了倒排文件緩存優(yōu)化設(shè)計(jì)中的性能指標(biāo)選擇、替換算法、頁(yè)面大小和倒排文件組織方式對(duì)緩存性能影響等問題。研究結(jié)果為倒排文件緩存優(yōu)化設(shè)計(jì)提供了指導(dǎo)。4)針對(duì)搜索引擎檢索系統(tǒng)效果評(píng)
5、估中的若干問題,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)搜索引擎檢索系統(tǒng)檢索效果評(píng)估的實(shí)驗(yàn)環(huán)境?;谒阉饕娴挠脩舨樵?nèi)罩?,按查詢類別構(gòu)建了用戶查詢集合。對(duì)不同搜索引擎搜集系統(tǒng)搜集網(wǎng)頁(yè)集合的差異、評(píng)測(cè)員結(jié)果之間的差異對(duì)評(píng)估實(shí)驗(yàn)的穩(wěn)定性、連續(xù)性的相關(guān)度評(píng)分分值以及對(duì)應(yīng)的評(píng)估指標(biāo)、查詢集合大小對(duì)評(píng)估實(shí)驗(yàn)的穩(wěn)定性等問題進(jìn)行了研究,結(jié)果對(duì)于進(jìn)行有效的檢索評(píng)估實(shí)驗(yàn)有重要指導(dǎo)意義。?96?5)基于對(duì)搜索引擎用戶點(diǎn)擊日志數(shù)據(jù)的分析,提出了一種自動(dòng)構(gòu)建評(píng)估實(shí)驗(yàn)相關(guān)結(jié)果集合與進(jìn)行自動(dòng)評(píng)估實(shí)驗(yàn)的方法。實(shí)驗(yàn)顯示這一自動(dòng)方法得到的結(jié)果和人工評(píng)估實(shí)驗(yàn)結(jié)果保持一致,并且對(duì)不同查詢集合保持穩(wěn)定。這一方法為解決大規(guī)模數(shù)據(jù)集上檢索系統(tǒng)
6、評(píng)估的可擴(kuò)展性問題提供了一條有效的途徑。關(guān)鍵詞:萬(wàn)維網(wǎng),搜索引擎,信息檢索,檢索效率,性能,評(píng)估?96?AbstractSearchengineisnowaninfrastructureoftheinformationsociety.Inthisdissertation,westudiedtheperformanceoflarge-scaleretrievalsystemofsearchengine;especiallyfocusedonefficiencyoptimizationandeffectivenessevaluation.Themaincontributionsin
7、clude:1.Amixtureindextermselectionmethodisproposed.ByintegratingthetechniquesofChineseautomaticwordsegmentationandunknownworddetection,weselectboththeresultsofwordsegmentationonthebasicdictionaryandtheresultsontheextendeddictionaryconsistingofdetec