資源描述:
《游戲垂直搜索引擎 基于Heritrix網(wǎng)絡(luò)爬蟲(chóng)的搜索引擎DEMO系統(tǒng)---開(kāi)題報(bào)告.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、廈門大學(xué)軟件學(xué)院畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告學(xué)生姓名班級(jí)學(xué)號(hào)校內(nèi)指導(dǎo)教師姓名職稱所在單位廈門大學(xué)軟件學(xué)院畢業(yè)設(shè)計(jì)(論文)題目垂直搜索引擎:搜索新未來(lái)畢業(yè)設(shè)計(jì)(論文)的目標(biāo):開(kāi)發(fā)關(guān)于游戲的具有全文(中文)檢索的垂直搜索引擎系統(tǒng)。根據(jù)收錄的多個(gè)信息格式相對(duì)單一的垂直門戶和論壇,通過(guò)分析工具分析其信息特點(diǎn)和關(guān)鍵詞分布狀況,然后基于現(xiàn)有的信息格式建立索引庫(kù),以及相應(yīng)的數(shù)據(jù)庫(kù)。用戶通過(guò)網(wǎng)頁(yè)的方式查詢,查詢后的結(jié)果也以網(wǎng)頁(yè)的方式顯示。實(shí)現(xiàn)方法:基本環(huán)境:開(kāi)發(fā)工具:MyEclipse,Dreamwear,Photoshop
2、開(kāi)發(fā)語(yǔ)言:Java,Javascript開(kāi)發(fā)平臺(tái):windows測(cè)試工具:Junit數(shù)據(jù)庫(kù):MYSQL工作原理:搜索引擎是對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后供你查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢?nèi)糠?。信息搜集:通過(guò)使用網(wǎng)絡(luò)爬蟲(chóng)從網(wǎng)絡(luò)上抓取想要的資源。網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎出現(xiàn)的前提。信息整理分為構(gòu)建文本庫(kù)、建立索引。1.構(gòu)建文本庫(kù)在開(kāi)發(fā)檢索功能前,一個(gè)信息檢索系統(tǒng)需要做些準(zhǔn)備工作。首先,必須構(gòu)建一個(gè)文本數(shù)據(jù)庫(kù),亦詞庫(kù)。這個(gè)文本數(shù)據(jù)庫(kù)用來(lái)保存所有用戶可能檢索的信息。這個(gè)文本數(shù)據(jù)庫(kù)具有可識(shí)別、冗
3、余程度低等特點(diǎn)。該文本數(shù)據(jù)庫(kù)是基本之前網(wǎng)絡(luò)爬蟲(chóng)抓取的資源而建立的。2.建立索引有了文本數(shù)據(jù)庫(kù)之后,就應(yīng)該根據(jù)詞庫(kù)內(nèi)的文本建立索引。索引可大大提高信息檢索的速度。用戶查詢又可分為搜索以及對(duì)結(jié)果的過(guò)濾兩部分。1.搜索該部分通常是由用戶提交一個(gè)檢索請(qǐng)求,該請(qǐng)求將被分析,然后利用文本操作進(jìn)行處理。2.對(duì)結(jié)果的過(guò)濾通常,在系統(tǒng)檢索到用戶需要的信息后,還需要做一步操作,就是將信息以一定的規(guī)則進(jìn)行排序或過(guò)濾,在返回給用戶。這一步關(guān)系到最終用戶的體驗(yàn)。如果總是將一些無(wú)關(guān)信息返回給用戶,那么它一定不是一個(gè)成功的搜索引擎。時(shí)
4、間進(jìn)度安排:2008年11月20日-2009年1月11日:查閱相關(guān)書(shū)籍資料,所有概念細(xì)節(jié)的敲定。2009年1月12日-2009年1月20日:征求導(dǎo)師意見(jiàn)后進(jìn)一步改進(jìn),整理提交畢業(yè)設(shè)計(jì)開(kāi)題報(bào)告。2009年1月21日-2009年2月13日:完成相應(yīng)文檔資料。2009年2月14日-2009年4月30日:對(duì)必要技術(shù)及工具進(jìn)一步了解和學(xué)習(xí),完成基本代碼修改和編寫(xiě),整個(gè)系統(tǒng)的基本完成。2009年5月1日-2009年5月10日:集成測(cè)試,整個(gè)軟件主體基本完成。2009年5月11日-2009年5月20日:系統(tǒng)測(cè)試,以及各
5、種性能分析。2009年5月21日-2009年5月30日:確認(rèn)軟件功能,確認(rèn)所需功能均已完成,并完成具體功能檢查。2009年6月1日-2009年6月30日:項(xiàng)目文檔終稿完成,提交畢業(yè)論文,準(zhǔn)備畢業(yè)答辯。指導(dǎo)教師審核意見(jiàn):校內(nèi)指導(dǎo)教師簽名:2009年月日廈門大學(xué)軟件學(xué)院畢業(yè)設(shè)計(jì)(論文)中期檢查報(bào)告學(xué)生姓名班級(jí)3班學(xué)號(hào)校內(nèi)指導(dǎo)教師姓名職稱所在單位廈門大學(xué)軟件學(xué)院畢業(yè)設(shè)計(jì)(論文)題目垂直搜索引擎:搜索新未來(lái)畢業(yè)設(shè)計(jì)(論文)的目標(biāo)和主要任務(wù):設(shè)計(jì)構(gòu)建一個(gè)關(guān)于游戲的垂直搜索引擎,以Eclipse作為開(kāi)發(fā)環(huán)境。后臺(tái)數(shù)據(jù)
6、處理使用Lucene索引工具和Heritrix爬蟲(chóng)技術(shù),前臺(tái)使用JSP技術(shù)進(jìn)行頁(yè)面設(shè)計(jì),后臺(tái)數(shù)據(jù)庫(kù)使用MySQL數(shù)據(jù)庫(kù)。設(shè)計(jì)的目的是讓用戶可以在網(wǎng)站上搜索其需要的游戲信息,并能從搜索結(jié)果中打開(kāi)一個(gè)有關(guān)游戲詳細(xì)參數(shù)的頁(yè)面進(jìn)行瀏覽。在系統(tǒng)中,游戲信息是從新浪游戲、17173和迅雷游戲上利用Heritrix抓取下來(lái)的。網(wǎng)頁(yè)經(jīng)過(guò)HTMLParser解析后,得到的游戲詳細(xì)信息插入到MySQL數(shù)據(jù)庫(kù)中,并為該游戲建立詞庫(kù)和Lucene索引。最后構(gòu)建一個(gè)簡(jiǎn)單的Web平臺(tái),對(duì)建立的索引和數(shù)據(jù)庫(kù)進(jìn)行整合,為用戶提供真正的搜
7、索服務(wù)。已經(jīng)完成畢業(yè)設(shè)計(jì)(論文)任務(wù)的情況:經(jīng)過(guò)團(tuán)隊(duì)成員的討論,已完成對(duì)項(xiàng)目的大概了解,進(jìn)行了可行性分析、需求分析等。并已經(jīng)編寫(xiě)好了項(xiàng)目的詳細(xì)設(shè)計(jì)說(shuō)明書(shū),現(xiàn)在正在按照項(xiàng)目的詳細(xì)設(shè)計(jì)開(kāi)發(fā)項(xiàng)目的幾個(gè)核心模塊,包括網(wǎng)絡(luò)爬蟲(chóng)模塊、網(wǎng)頁(yè)解析模塊、數(shù)據(jù)庫(kù)和索引模塊以及前臺(tái)試圖模塊。按照計(jì)劃再經(jīng)過(guò)兩周,項(xiàng)目既可完成。存在的問(wèn)題和困難(包括需要學(xué)院協(xié)助解決的問(wèn)題和困難):主要有以下兩個(gè)問(wèn)題:1.這個(gè)垂直搜索只能做游戲領(lǐng)域嗎?我們現(xiàn)在想換其他領(lǐng)域可不可以?。?.我們現(xiàn)在是抓取了新浪游戲的游戲資料庫(kù),但是都是下面這種urlh
8、ttp://games.sina.com.cn/o/c/2007-10-18/4881.shtml從這些網(wǎng)址中不知道怎么找出各游戲的ID來(lái)建立索引,不會(huì)解析網(wǎng)頁(yè),不知道怎么從這些頁(yè)面中提取出我們所需要的信息。特向您請(qǐng)教指導(dǎo)教師審核意見(jiàn):校內(nèi)指導(dǎo)教師簽名:2009年月日學(xué)院檢查組意見(jiàn):學(xué)院檢查組組長(zhǎng)(簽章):2009年月日畢業(yè)論文任務(wù)書(shū)題目:垂直搜索引擎:搜索新未來(lái)目標(biāo)要求:畢業(yè)設(shè)計(jì)(論文)的目標(biāo):開(kāi)發(fā)關(guān)于游戲的具有全文(中文)