JAVA課程設(shè)計 網(wǎng)絡(luò)爬蟲搜索引擎

JAVA課程設(shè)計 網(wǎng)絡(luò)爬蟲搜索引擎

ID:46579846

大小:938.47 KB

頁數(shù):26頁

時間:2019-11-25

JAVA課程設(shè)計 網(wǎng)絡(luò)爬蟲搜索引擎_第1頁
JAVA課程設(shè)計 網(wǎng)絡(luò)爬蟲搜索引擎_第2頁
JAVA課程設(shè)計 網(wǎng)絡(luò)爬蟲搜索引擎_第3頁
JAVA課程設(shè)計 網(wǎng)絡(luò)爬蟲搜索引擎_第4頁
JAVA課程設(shè)計 網(wǎng)絡(luò)爬蟲搜索引擎_第5頁
資源描述:

《JAVA課程設(shè)計 網(wǎng)絡(luò)爬蟲搜索引擎》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、學(xué)號:課程設(shè)計題目網(wǎng)絡(luò)爬蟲搜索引擎學(xué)院管理學(xué)院專業(yè)信息管理與信息系統(tǒng)班級姓名指導(dǎo)教師王新201年7月4日武漢理工大學(xué)《java語言》課程設(shè)計課程設(shè)計任務(wù)書學(xué)生姓名:指導(dǎo)教師:王新工作單位:信息管理與信息系統(tǒng)系題目:網(wǎng)絡(luò)爬蟲搜索引擎初始條件:合理應(yīng)用Java相關(guān)知識與編程技能,結(jié)合UML面向?qū)ο笤O(shè)計,解決信息管理領(lǐng)域的實(shí)際問題,如學(xué)生成績管理、學(xué)籍管理、圖書借閱管理、自動存取款機(jī)、通信錄管理、商品銷售管理、醫(yī)院門診管理、火車訂票管理、影院自動售票、世界杯足球比賽管理、人力資源管理、酒店前臺管理、房產(chǎn)中介管理、停車收費(fèi)管理等。要求完成的主要任務(wù):(包括課程設(shè)計工作

2、量及其技術(shù)要求,以及說明書撰寫等具體要求)1.進(jìn)行需求分析,撰寫需求文檔,繪制用例圖。2.識別需求文檔中的類,建模類,初步繪制類圖(之后逐漸完善)。3.確定、建模類的實(shí)例變量。4.確定、建模類的方法。5.若有需要,在系統(tǒng)中加入繼承與多態(tài)。6.將UML圖轉(zhuǎn)換成Java代碼框架。7.設(shè)計算法,若有復(fù)雜的數(shù)據(jù)結(jié)構(gòu)需求,使用相應(yīng)集合框架。8.設(shè)計數(shù)據(jù)訪問層,若有數(shù)據(jù)持久化需求,使用數(shù)據(jù)庫/文件。9.添加表示層,若程序運(yùn)行在桌面,使用圖形用戶界面。10.實(shí)現(xiàn)完整的系統(tǒng),最終Java源代碼至少在300行以上。11.進(jìn)行測試,并給出相應(yīng)結(jié)果。課程設(shè)計報告中要求詳細(xì)描述思路、

3、步驟、方法、實(shí)現(xiàn)、問題及解決過程、操作說明、測試及結(jié)果。時間安排:1.2014年6月23日課程設(shè)計選題、查閱資料2.2014年6月24日~25日UML面向?qū)ο笤O(shè)計3.2014年6月26日~7月1日J(rèn)ava程序設(shè)計與代碼調(diào)試4.2014年7月2日改進(jìn)、完善、測試系統(tǒng)5.2014年7月3日~7月4日上午撰寫、提交課程設(shè)計報告6.2014年7月4日下午課程設(shè)計答辯指導(dǎo)教師簽名:年月日系主任(或責(zé)任教師)簽名:年月日-2-武漢理工大學(xué)《java語言》課程設(shè)計網(wǎng)絡(luò)爬蟲搜索引擎1項目介紹1.1開發(fā)背景該項目軟件開發(fā)的意圖是開發(fā)出一款網(wǎng)絡(luò)爬蟲軟件。應(yīng)用目標(biāo)為搜集網(wǎng)絡(luò)信息,便

4、于查詢使用。在如今的BIGDATA時代,網(wǎng)絡(luò)信息龐大而又復(fù)雜,用戶很難直接從中獲得需要的信息。網(wǎng)絡(luò)爬蟲軟件就是將這些信息收集并整理,當(dāng)用戶發(fā)起搜索請求時,該系統(tǒng)可將用戶最需要的信息反饋給用戶。1.2用戶的特點(diǎn)本軟件為免費(fèi)軟件,可供所有可使用互聯(lián)網(wǎng)的用戶使用。最終用戶只需掌握基本的上網(wǎng)技術(shù)即可,操作人員的主要工作是啟動和關(guān)閉服務(wù)器,只需掌握基本的電腦使用方法即可。維護(hù)人員需要專業(yè)的程序員,懂得Java的網(wǎng)絡(luò)編程以及計算機(jī)網(wǎng)絡(luò)基礎(chǔ),教育水平在??埔陨稀\浖念A(yù)期工作時間為24h/日。組織結(jié)構(gòu)圖及用戶角色如圖表1-1所示:1.3需求分析1.3.1各子模塊功能的描述本

5、系統(tǒng)共分為三大模塊:爬蟲模塊、數(shù)據(jù)庫模塊和搜索模塊,也就是后臺、前臺和數(shù)據(jù)庫。每一個模塊有各自的分工,最后三大模塊集合在一起構(gòu)成一個完整的網(wǎng)絡(luò)爬蟲系統(tǒng)。各個子模塊的詳細(xì)功能如下:1.3.2爬蟲模塊-3-武漢理工大學(xué)《java語言》課程設(shè)計第一個模塊為爬蟲模塊。爬蟲模塊的主要任務(wù)是負(fù)責(zé)尋找網(wǎng)頁,并將網(wǎng)頁內(nèi)的URL和關(guān)鍵字提取出來。此模塊又詳細(xì)分為兩大模塊:服務(wù)器模塊和正則引擎模塊,這兩個模塊分別負(fù)責(zé)上述的兩個功能。服務(wù)器模塊向某個種子URL發(fā)送請求,或得其頁面內(nèi)容;正則引擎模塊將服務(wù)器獲取的頁面用正則表達(dá)式對其進(jìn)行分析,截取其中的URL和關(guān)鍵字,然后再將URL傳

6、遞給服務(wù)器模塊。系統(tǒng)按照這樣的方式不斷的抓取網(wǎng)頁并進(jìn)行分析,最后將結(jié)果存進(jìn)數(shù)據(jù)庫。1.3.3搜索模塊第二個模塊是搜索模塊,用戶在搜索界面輸入關(guān)鍵字,然后系統(tǒng)在數(shù)據(jù)庫中搜索對應(yīng)的關(guān)鍵字,最后將結(jié)果返回給用戶。此模塊又分為搜索界面和結(jié)果界面。搜索界面是首頁,用戶在此界面中輸入想要搜索的關(guān)鍵詞,這些關(guān)鍵詞將被此頁面記錄下來傳遞到數(shù)據(jù)中進(jìn)行搜素。結(jié)果頁面是數(shù)據(jù)庫結(jié)果的接受者,當(dāng)數(shù)據(jù)庫完成搜素后會將結(jié)果傳遞給次頁面,然后結(jié)果頁面會將結(jié)果呈現(xiàn)給用戶。1.3.4數(shù)據(jù)庫模塊數(shù)據(jù)庫模塊在整個系統(tǒng)中起到存儲和橋梁作用。爬蟲模塊將搜索的結(jié)果整理完成后存入數(shù)據(jù)庫,搜索模塊從數(shù)據(jù)庫中獲

7、取需要的信息并呈現(xiàn)給用戶。1.4對非功能性的需求1.4.1精度該系統(tǒng)的輸入為一個字符串,里面包含了一個或多個關(guān)鍵字,長度在38個漢字以內(nèi),超過的部分將被直接舍棄。輸出的數(shù)據(jù)要求包括網(wǎng)站的URL和頁面簡介,按照頁面內(nèi)容與搜索內(nèi)容的匹配程度來排序。1.4.2時間特性要求a)響應(yīng)時間≤0.01sb)更新處理時間≤0.1c)數(shù)據(jù)的轉(zhuǎn)換和傳送時間≤0.1s1.4.3靈活性-4-武漢理工大學(xué)《java語言》課程設(shè)計該系統(tǒng)運(yùn)用的主要語言是Java,由于Java是一門跨平臺的語言,所以本系統(tǒng)的兼容性比較強(qiáng),只要配置了Java環(huán)境就可以運(yùn)行。當(dāng)該系統(tǒng)與數(shù)據(jù)庫MySQL的接口發(fā)生

8、變化時,系統(tǒng)在重新加載了新的驅(qū)動后要能

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。