資源描述:
《游戲垂直搜索引擎 基于Heritrix網(wǎng)絡(luò)爬蟲的搜索引擎DEMO系統(tǒng)---畢業(yè)論文.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、本科畢業(yè)論文游戲垂直搜索引擎:基于Heritrix網(wǎng)絡(luò)爬蟲的搜索引擎DEMO系統(tǒng)GameVerticalSearchEngine:SearchengineDEMOsystembasedonHeritrixwebcrawler姓名:學(xué)號:學(xué) 院:軟件學(xué)院系:軟件工程專業(yè):軟件工程年級:指導(dǎo)教師:年月摘要搜索引擎是互聯(lián)網(wǎng)檢索技術(shù)的核心,隨著互聯(lián)網(wǎng)的迅速發(fā)展,目前的綜合搜索引擎已無法滿足用戶的需求,這就成就了垂直搜索引擎的蓬勃發(fā)展。垂直搜索是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,相對通用搜索引擎的信息量大、查詢不精確、深度不夠等提出來的新的搜索
2、引擎服務(wù)模式。通過針對某一特定領(lǐng)域或某一特定需求提供的有一定價值的信息和相關(guān)服務(wù)。本文構(gòu)建一個關(guān)于游戲的垂直搜索引擎,讓用戶可以在這個游戲搜索網(wǎng)站上,搜索到其需要的游戲信息,并能從搜索結(jié)果中打開一個有關(guān)詳細(xì)信息的頁面進(jìn)行瀏覽。系統(tǒng)使用MyEclipse作為開發(fā)環(huán)境。后臺數(shù)據(jù)處理使用Lucene索引工具和Heritrix爬蟲技術(shù),前臺使用JSP技術(shù)進(jìn)行頁面設(shè)計(jì),后臺數(shù)據(jù)庫使用MySQL數(shù)據(jù)庫。設(shè)計(jì)的目的是讓用戶可以在網(wǎng)站上搜索其需要的游戲信息,并能從搜索結(jié)果中打開一個有關(guān)游戲詳細(xì)信息的頁面進(jìn)行瀏覽。在系統(tǒng)中,游戲信息是從新浪游戲、17173和迅雷游戲上利用H
3、eritrix抓取下來的。網(wǎng)頁經(jīng)過HTMLParser解析后,得到的游戲詳細(xì)信息插入到MySQL數(shù)據(jù)庫中,并為該游戲建立Lucene索引。最后構(gòu)建一個簡單的Web平臺,對建立的索引和數(shù)據(jù)庫進(jìn)行整合,為用戶提供真正的搜索服務(wù)。另外,本文還對Lucene和Heritrix等一些開源java項(xiàng)目進(jìn)行了簡單的介紹。關(guān)鍵詞:垂直搜索;搜索引擎;LuceneAbstractSearchengineisthecoreoftheInternetinformationretrievaltechnology,withtherapiddevelopmentofInternet,
4、thecurrenthorizontalsearchenginecan’tsatisfytheseInternetusers,whichgivesagoodopportunitytoverticalsearchenginetodevelop.Verticalsearchisaprofessionalsearchengineinoneindustry,isthesubdivisionofsearchengine.Comparedwithhorizontalsearchenginewhichishugeinformation,inaccurate,noteno
5、ughdepth,theverticalsearchengineputforwardanewmodelsearchengineservices.Verticalsearchengineprovidesspecialinformationandrelatedservicestoaparticularareaoraspecificdemandforacertainvalue.Thisarticlebuildsaverticalsearchengineforgameindustry,providingtheusertosearchinthisgamewebsit
6、e,searchingforgameinformationwhichtheyneed,andtheycanclickthesearchresultstoopenadetailedinformationpage.ThesystemusesMyEclipseasadevelopmentenvironment,andusesLuceneindextoolandHeritrixcrawlertechnologytodobackgrounddata-processing,andusesJSPtechnologytodesignthefrontpages.Beside
7、s,itusesMYSQLasthebackgrounddatabase.Theaimofthisdesignistomaketheuserssearchforthegameinformationoftheirneedsinthewebsite,andclickthesearchresultstoopenadetailedgamepagetobrowsethegameinformation.Inthesystem,gameinformationisfromSina,17173,andThunderwebsitesbyusingtheHeritrixcraw
8、ler.AfterbeenanalyzedbyHTMLParser