基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文.doc

基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文.doc

ID:153116

大?。?76.00 KB

頁數(shù):58頁

時間:2017-06-28

基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文.doc_第1頁
基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文.doc_第2頁
基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文.doc_第3頁
基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文.doc_第4頁
基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文.doc_第5頁
資源描述:

《基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文摘要IAbstractII第1章緒論11.1課題的背景及意義11.2垂直搜索引擎現(xiàn)存的問題11.2.1垂直搜索引擎的產(chǎn)生11.2.2存在的問題21.3國內(nèi)外垂直搜索引擎的發(fā)展31.4垂直搜索引擎的發(fā)展前景41.5課題的主要研究內(nèi)容6第2章搜索引擎實(shí)現(xiàn)原理72.1通用搜索引擎的工作流程72.2網(wǎng)頁信息采集技術(shù)和軟件82.2.1網(wǎng)頁信息采集軟件的工作方式92.2.2網(wǎng)頁采集軟件的組成模塊102.3索引器122.3.1實(shí)現(xiàn)原理122.3.2索引數(shù)據(jù)組織132.3.3索引文

2、件導(dǎo)出過程142.4網(wǎng)頁存儲器與分析索引器1442.5查詢器和用戶接口的設(shè)計152.5.1查詢器152.5.2用戶接口162.6搜索引擎的性能評價指標(biāo)162.7小結(jié)18第3章垂直搜索引擎的關(guān)鍵技術(shù)193.1頁面分析技術(shù)193.2超鏈接分析算法203.2.1PageRank算法203.2.2HITS算法223.3網(wǎng)頁信息的結(jié)構(gòu)化抽取233.3.1網(wǎng)頁信息的結(jié)構(gòu)化抽取方式243.3.2結(jié)構(gòu)化信息抽取系統(tǒng)的結(jié)構(gòu)243.3.3中文網(wǎng)頁結(jié)構(gòu)化信息抽取的難點(diǎn)253.4暗藏網(wǎng)頁的信息抽取263.5小結(jié)27第4章面向音樂領(lǐng)域垂直搜索引擎的總體設(shè)

3、計284.1基本功能需求284.2音樂產(chǎn)品信息搜索引擎系統(tǒng)的體系結(jié)構(gòu)294.3系統(tǒng)開發(fā)環(huán)境304.4垂直搜索引擎的主要數(shù)據(jù)庫設(shè)計304.5系統(tǒng)功能特點(diǎn)31第5章4面向音樂領(lǐng)域的垂直搜索引擎的具體實(shí)現(xiàn)335.1音樂信息網(wǎng)頁自動搜索算法的具體實(shí)現(xiàn)335.1.1元搜索算法335.1.2自動搜索過程的實(shí)現(xiàn)355.1.3網(wǎng)頁爬行的控制模塊實(shí)現(xiàn)375.1.4HTML標(biāo)準(zhǔn)化與頁面解析385.1.5網(wǎng)頁爬行的控制模塊的性能測試395.2頁面分析與音樂產(chǎn)品信息的自動抽取415.3Lucene倒排文件索引結(jié)構(gòu)445.4用戶查詢功能的實(shí)現(xiàn)455.4.1網(wǎng)頁

4、形式的音樂產(chǎn)品信息查詢與返回465.4.2站內(nèi)數(shù)據(jù)庫中的音樂產(chǎn)品信息查詢與返回485.5小結(jié)49結(jié)論50致謝52參考文獻(xiàn)5344緒論第1章緒論1.1課題的背景及意義隨著網(wǎng)絡(luò)與通信技術(shù)的迅速發(fā)展,Web信息爆炸性的增長,互聯(lián)網(wǎng)已經(jīng)成為一個巨大的海量信息空間。如何迅速、準(zhǔn)確、方便的從如此龐大的信息庫獲取自己需要的信息,是互聯(lián)網(wǎng)用戶面臨的一個重要問題。搜索引擎的出現(xiàn),整合了眾多網(wǎng)站信息,極快的查詢起到了信息導(dǎo)航的作用,信息的價值得到眾多商家的普遍認(rèn)可,成為互聯(lián)網(wǎng)中最有價值的領(lǐng)域。大家熟知的搜索引擎Google、百度、雅虎等都是搜索引擎的杰出代

5、表,為互聯(lián)網(wǎng)的發(fā)展做出了重要的貢獻(xiàn)。CNNIC第十四次互聯(lián)網(wǎng)調(diào)查表示,搜索以71.9%的絕對優(yōu)勢成為用戶從互聯(lián)網(wǎng)上獲取信息的主要方式[1],是互聯(lián)網(wǎng)上使用程序僅次于電子郵箱的服務(wù)?;ヂ?lián)網(wǎng)的信息量呈爆炸趨勢增長,幾年前全球式搜索引擎收錄的網(wǎng)頁量只有幾千萬頁,而現(xiàn)在已經(jīng)達(dá)到幾十億頁,數(shù)量增加帶來的是搜索服務(wù)的品質(zhì)下降,查詢的結(jié)果集就是海量的,經(jīng)常是幾十萬筆的資料,結(jié)果里存在大量的重復(fù)信息和垃圾信息,用戶越來越難迅速找到符合的信息,現(xiàn)在經(jīng)常使用搜索引擎可以感覺到很難在短時間內(nèi)準(zhǔn)確的篩選出需要的內(nèi)容。因此,如何對通用搜索引擎技術(shù)進(jìn)行改進(jìn),使查詢的結(jié)果更

6、加貼近用戶的要求,成為搜索引擎行業(yè)近期的研究熱點(diǎn)。1.2垂直搜索引擎現(xiàn)存的問題1.2.1垂直搜索引擎的產(chǎn)生21緒論所謂通用搜索引擎,并不能夠囊括所有的網(wǎng)頁,據(jù)google的人說,也就猜測覆蓋了40%不到的網(wǎng)頁,也就是說,更多的網(wǎng)頁是沒有被通用搜索引擎收錄的,也就談不上被搜到了。那些沒有機(jī)會收錄的網(wǎng)頁,有些是需要身份驗證等之后才可以看到,有些是根本未被通用搜索引擎的蜘蛛爬到。這些信息卻往往是寶貴的,更有價值的。每一個行業(yè)都是復(fù)雜的,從目前計算機(jī)技術(shù)來講,還是遵循馮.諾依曼的體系,也即是說還是依靠圖靈未實(shí)現(xiàn)的人工智能之下的計算機(jī)邏輯來處理信息,在搜

7、索收錄的分析過程中,如果不加上行業(yè)特點(diǎn)和特性進(jìn)行分析,很難說會更準(zhǔn)確分析到網(wǎng)頁的重要性和分析的準(zhǔn)確。這個也是垂直的意義所在[2]。當(dāng)然,這里面也需要注意到,并非你垂直了,你的搜索收錄和搜索結(jié)果就一定比通用搜索更準(zhǔn)確[3]。垂直搜索引擎和普通的網(wǎng)頁搜索引擎的最大區(qū)別是對網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁搜索是以網(wǎng)頁為最小單位,基于視覺的網(wǎng)頁塊分析是以網(wǎng)頁塊為最小單位,而垂直搜索是21西安工業(yè)大學(xué)畢業(yè)設(shè)計(論文)以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進(jìn)行進(jìn)一步的加工處理,如:去

8、重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。整個過程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。