資源描述:
《基于Lucene與Heritrix的搜索引擎構建畢業(yè)論文.doc》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、基于Lucene與Heritrix的搜索引擎構建畢業(yè)論文摘要IAbstractII第1章緒論11.1課題的背景及意義11.2垂直搜索引擎現(xiàn)存的問題11.2.1垂直搜索引擎的產(chǎn)生11.2.2存在的問題21.3國內外垂直搜索引擎的發(fā)展31.4垂直搜索引擎的發(fā)展前景41.5課題的主要研究內容6第2章搜索引擎實現(xiàn)原理72.1通用搜索引擎的工作流程72.2網(wǎng)頁信息采集技術和軟件82.2.1網(wǎng)頁信息采集軟件的工作方式92.2.2網(wǎng)頁采集軟件的組成模塊102.3索引器122.3.1實現(xiàn)原理122.3.2索引數(shù)據(jù)組織132.3.3索引文
2、件導出過程142.4網(wǎng)頁存儲器與分析索引器1442.5查詢器和用戶接口的設計152.5.1查詢器152.5.2用戶接口162.6搜索引擎的性能評價指標162.7小結18第3章垂直搜索引擎的關鍵技術193.1頁面分析技術193.2超鏈接分析算法203.2.1PageRank算法203.2.2HITS算法223.3網(wǎng)頁信息的結構化抽取233.3.1網(wǎng)頁信息的結構化抽取方式243.3.2結構化信息抽取系統(tǒng)的結構243.3.3中文網(wǎng)頁結構化信息抽取的難點253.4暗藏網(wǎng)頁的信息抽取263.5小結27第4章面向音樂領域垂直搜索引擎的總體設
3、計284.1基本功能需求284.2音樂產(chǎn)品信息搜索引擎系統(tǒng)的體系結構294.3系統(tǒng)開發(fā)環(huán)境304.4垂直搜索引擎的主要數(shù)據(jù)庫設計304.5系統(tǒng)功能特點31第5章4面向音樂領域的垂直搜索引擎的具體實現(xiàn)335.1音樂信息網(wǎng)頁自動搜索算法的具體實現(xiàn)335.1.1元搜索算法335.1.2自動搜索過程的實現(xiàn)355.1.3網(wǎng)頁爬行的控制模塊實現(xiàn)375.1.4HTML標準化與頁面解析385.1.5網(wǎng)頁爬行的控制模塊的性能測試395.2頁面分析與音樂產(chǎn)品信息的自動抽取415.3Lucene倒排文件索引結構445.4用戶查詢功能的實現(xiàn)455.4.1網(wǎng)頁
4、形式的音樂產(chǎn)品信息查詢與返回465.4.2站內數(shù)據(jù)庫中的音樂產(chǎn)品信息查詢與返回485.5小結49結論50致謝52參考文獻5344緒論第1章緒論1.1課題的背景及意義隨著網(wǎng)絡與通信技術的迅速發(fā)展,Web信息爆炸性的增長,互聯(lián)網(wǎng)已經(jīng)成為一個巨大的海量信息空間。如何迅速、準確、方便的從如此龐大的信息庫獲取自己需要的信息,是互聯(lián)網(wǎng)用戶面臨的一個重要問題。搜索引擎的出現(xiàn),整合了眾多網(wǎng)站信息,極快的查詢起到了信息導航的作用,信息的價值得到眾多商家的普遍認可,成為互聯(lián)網(wǎng)中最有價值的領域。大家熟知的搜索引擎Google、百度、雅虎等都是搜索引擎的杰出代
5、表,為互聯(lián)網(wǎng)的發(fā)展做出了重要的貢獻。CNNIC第十四次互聯(lián)網(wǎng)調查表示,搜索以71.9%的絕對優(yōu)勢成為用戶從互聯(lián)網(wǎng)上獲取信息的主要方式[1],是互聯(lián)網(wǎng)上使用程序僅次于電子郵箱的服務?;ヂ?lián)網(wǎng)的信息量呈爆炸趨勢增長,幾年前全球式搜索引擎收錄的網(wǎng)頁量只有幾千萬頁,而現(xiàn)在已經(jīng)達到幾十億頁,數(shù)量增加帶來的是搜索服務的品質下降,查詢的結果集就是海量的,經(jīng)常是幾十萬筆的資料,結果里存在大量的重復信息和垃圾信息,用戶越來越難迅速找到符合的信息,現(xiàn)在經(jīng)常使用搜索引擎可以感覺到很難在短時間內準確的篩選出需要的內容。因此,如何對通用搜索引擎技術進行改進,使查詢的結果更
6、加貼近用戶的要求,成為搜索引擎行業(yè)近期的研究熱點。1.2垂直搜索引擎現(xiàn)存的問題1.2.1垂直搜索引擎的產(chǎn)生21緒論所謂通用搜索引擎,并不能夠囊括所有的網(wǎng)頁,據(jù)google的人說,也就猜測覆蓋了40%不到的網(wǎng)頁,也就是說,更多的網(wǎng)頁是沒有被通用搜索引擎收錄的,也就談不上被搜到了。那些沒有機會收錄的網(wǎng)頁,有些是需要身份驗證等之后才可以看到,有些是根本未被通用搜索引擎的蜘蛛爬到。這些信息卻往往是寶貴的,更有價值的。每一個行業(yè)都是復雜的,從目前計算機技術來講,還是遵循馮.諾依曼的體系,也即是說還是依靠圖靈未實現(xiàn)的人工智能之下的計算機邏輯來處理信息,在搜
7、索收錄的分析過程中,如果不加上行業(yè)特點和特性進行分析,很難說會更準確分析到網(wǎng)頁的重要性和分析的準確。這個也是垂直的意義所在[2]。當然,這里面也需要注意到,并非你垂直了,你的搜索收錄和搜索結果就一定比通用搜索更準確[3]。垂直搜索引擎和普通的網(wǎng)頁搜索引擎的最大區(qū)別是對網(wǎng)頁信息進行了結構化信息抽取,也就是將網(wǎng)頁的非結構化數(shù)據(jù)抽取成特定的結構化信息數(shù)據(jù),好比網(wǎng)頁搜索是以網(wǎng)頁為最小單位,基于視覺的網(wǎng)頁塊分析是以網(wǎng)頁塊為最小單位,而垂直搜索是21西安工業(yè)大學畢業(yè)設計(論文)以結構化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進行進一步的加工處理,如:去
8、重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。整個過程中,數(shù)據(jù)由非結構化數(shù)據(jù)抽取成結構化數(shù)據(jù),經(jīng)過深度加工處理后以非結構化的方式和結構化的方