游戲垂直搜索引擎 基于Heritrix網(wǎng)絡爬蟲的搜索引擎DEMO系統(tǒng)---開題報告.doc

游戲垂直搜索引擎 基于Heritrix網(wǎng)絡爬蟲的搜索引擎DEMO系統(tǒng)---開題報告.doc

ID:11570523

大?。?1.50 KB

頁數(shù):8頁

時間:2018-07-12

游戲垂直搜索引擎 基于Heritrix網(wǎng)絡爬蟲的搜索引擎DEMO系統(tǒng)---開題報告.doc_第1頁
游戲垂直搜索引擎 基于Heritrix網(wǎng)絡爬蟲的搜索引擎DEMO系統(tǒng)---開題報告.doc_第2頁
游戲垂直搜索引擎 基于Heritrix網(wǎng)絡爬蟲的搜索引擎DEMO系統(tǒng)---開題報告.doc_第3頁
游戲垂直搜索引擎 基于Heritrix網(wǎng)絡爬蟲的搜索引擎DEMO系統(tǒng)---開題報告.doc_第4頁
游戲垂直搜索引擎 基于Heritrix網(wǎng)絡爬蟲的搜索引擎DEMO系統(tǒng)---開題報告.doc_第5頁
資源描述:

《游戲垂直搜索引擎 基于Heritrix網(wǎng)絡爬蟲的搜索引擎DEMO系統(tǒng)---開題報告.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、廈門大學軟件學院畢業(yè)設計(論文)開題報告學生姓名班級學號校內(nèi)指導教師姓名職稱所在單位廈門大學軟件學院畢業(yè)設計(論文)題目垂直搜索引擎:搜索新未來畢業(yè)設計(論文)的目標:開發(fā)關(guān)于游戲的具有全文(中文)檢索的垂直搜索引擎系統(tǒng)。根據(jù)收錄的多個信息格式相對單一的垂直門戶和論壇,通過分析工具分析其信息特點和關(guān)鍵詞分布狀況,然后基于現(xiàn)有的信息格式建立索引庫,以及相應的數(shù)據(jù)庫。用戶通過網(wǎng)頁的方式查詢,查詢后的結(jié)果也以網(wǎng)頁的方式顯示。實現(xiàn)方法:基本環(huán)境:開發(fā)工具:MyEclipse,Dreamwear,Photoshop開發(fā)語言:Java,Javascript開發(fā)平

2、臺:windows測試工具:Junit數(shù)據(jù)庫:MYSQL工作原理:搜索引擎是對互聯(lián)網(wǎng)上的信息資源進行搜集整理,然后供你查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢?nèi)糠?。信息搜集:通過使用網(wǎng)絡爬蟲從網(wǎng)絡上抓取想要的資源。網(wǎng)絡爬蟲是搜索引擎出現(xiàn)的前提。信息整理分為構(gòu)建文本庫、建立索引。1.構(gòu)建文本庫在開發(fā)檢索功能前,一個信息檢索系統(tǒng)需要做些準備工作。首先,必須構(gòu)建一個文本數(shù)據(jù)庫,亦詞庫。這個文本數(shù)據(jù)庫用來保存所有用戶可能檢索的信息。這個文本數(shù)據(jù)庫具有可識別、冗余程度低等特點。該文本數(shù)據(jù)庫是基本之前網(wǎng)絡爬蟲抓取的資源而建立的。2.建立索引有了文本數(shù)據(jù)庫

3、之后,就應該根據(jù)詞庫內(nèi)的文本建立索引。索引可大大提高信息檢索的速度。用戶查詢又可分為搜索以及對結(jié)果的過濾兩部分。1.搜索該部分通常是由用戶提交一個檢索請求,該請求將被分析,然后利用文本操作進行處理。2.對結(jié)果的過濾通常,在系統(tǒng)檢索到用戶需要的信息后,還需要做一步操作,就是將信息以一定的規(guī)則進行排序或過濾,在返回給用戶。這一步關(guān)系到最終用戶的體驗。如果總是將一些無關(guān)信息返回給用戶,那么它一定不是一個成功的搜索引擎。時間進度安排:2008年11月20日-2009年1月11日:查閱相關(guān)書籍資料,所有概念細節(jié)的敲定。2009年1月12日-2009年1月20日

4、:征求導師意見后進一步改進,整理提交畢業(yè)設計開題報告。2009年1月21日-2009年2月13日:完成相應文檔資料。2009年2月14日-2009年4月30日:對必要技術(shù)及工具進一步了解和學習,完成基本代碼修改和編寫,整個系統(tǒng)的基本完成。2009年5月1日-2009年5月10日:集成測試,整個軟件主體基本完成。2009年5月11日-2009年5月20日:系統(tǒng)測試,以及各種性能分析。2009年5月21日-2009年5月30日:確認軟件功能,確認所需功能均已完成,并完成具體功能檢查。2009年6月1日-2009年6月30日:項目文檔終稿完成,提交畢業(yè)論文

5、,準備畢業(yè)答辯。指導教師審核意見:校內(nèi)指導教師簽名:2009年月日廈門大學軟件學院畢業(yè)設計(論文)中期檢查報告學生姓名班級3班學號校內(nèi)指導教師姓名職稱所在單位廈門大學軟件學院畢業(yè)設計(論文)題目垂直搜索引擎:搜索新未來畢業(yè)設計(論文)的目標和主要任務:設計構(gòu)建一個關(guān)于游戲的垂直搜索引擎,以Eclipse作為開發(fā)環(huán)境。后臺數(shù)據(jù)處理使用Lucene索引工具和Heritrix爬蟲技術(shù),前臺使用JSP技術(shù)進行頁面設計,后臺數(shù)據(jù)庫使用MySQL數(shù)據(jù)庫。設計的目的是讓用戶可以在網(wǎng)站上搜索其需要的游戲信息,并能從搜索結(jié)果中打開一個有關(guān)游戲詳細參數(shù)的頁面進行瀏覽。在

6、系統(tǒng)中,游戲信息是從新浪游戲、17173和迅雷游戲上利用Heritrix抓取下來的。網(wǎng)頁經(jīng)過HTMLParser解析后,得到的游戲詳細信息插入到MySQL數(shù)據(jù)庫中,并為該游戲建立詞庫和Lucene索引。最后構(gòu)建一個簡單的Web平臺,對建立的索引和數(shù)據(jù)庫進行整合,為用戶提供真正的搜索服務。已經(jīng)完成畢業(yè)設計(論文)任務的情況:經(jīng)過團隊成員的討論,已完成對項目的大概了解,進行了可行性分析、需求分析等。并已經(jīng)編寫好了項目的詳細設計說明書,現(xiàn)在正在按照項目的詳細設計開發(fā)項目的幾個核心模塊,包括網(wǎng)絡爬蟲模塊、網(wǎng)頁解析模塊、數(shù)據(jù)庫和索引模塊以及前臺試圖模塊。按照計

7、劃再經(jīng)過兩周,項目既可完成。存在的問題和困難(包括需要學院協(xié)助解決的問題和困難):主要有以下兩個問題:1.這個垂直搜索只能做游戲領(lǐng)域嗎?我們現(xiàn)在想換其他領(lǐng)域可不可以???2.我們現(xiàn)在是抓取了新浪游戲的游戲資料庫,但是都是下面這種urlhttp://games.sina.com.cn/o/c/2007-10-18/4881.shtml從這些網(wǎng)址中不知道怎么找出各游戲的ID來建立索引,不會解析網(wǎng)頁,不知道怎么從這些頁面中提取出我們所需要的信息。特向您請教指導教師審核意見:校內(nèi)指導教師簽名:2009年月日學院檢查組意見:學院檢查組組長(簽章):2009年月日

8、畢業(yè)論文任務書題目:垂直搜索引擎:搜索新未來目標要求:畢業(yè)設計(論文)的目標:開發(fā)關(guān)于游戲的具有全文(中文)

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。