資源描述:
《網(wǎng)絡爬蟲的設計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、畢業(yè)設計(論文)說明書學院軟件學院專業(yè)軟件工程年級2007姓名張鳳龍指導教師陳錦言2011年3月6日畢業(yè)設計(論文)任務書題目:網(wǎng)絡爬蟲設計與實現(xiàn)學生姓名張鳳龍學院名稱軟件學院專業(yè)軟件工程學號3007218139指導教師陳錦言職稱講師一、原始依據(jù)(包括設計或論文的工作基礎、研究條件、應用環(huán)境、工作目的等。)互聯(lián)網(wǎng)是一個龐大的非結構化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。不同領域、不同背景的用戶往往具有不同的檢
2、索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網(wǎng)頁。所以需要一個能基于主題搜索的滿足特定需求的網(wǎng)絡爬蟲。為了解決上述問題,參照成功的網(wǎng)絡爬蟲模式,對網(wǎng)絡爬蟲進行研究,從而能夠為網(wǎng)絡爬蟲實現(xiàn)更深入的主題相關性,提供滿足特定搜索需求的網(wǎng)絡爬蟲。二、參考文獻[1]Winter.中文搜索引擎技術解密:網(wǎng)絡蜘蛛[M].北京:人民郵電出版社,2004年.[2]Sergey等.TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine[M].北京:清華大學出版社,1998年.[3]Wisenut.Wis
3、eNutSearchEnginewhitepaper[M].北京:中國電力出版社,2001年.[4]GaryR.WrightW.RichardStevens.TCP-IP協(xié)議詳解卷3:TCP事務協(xié)議,HTTP,NNTP和UNIX域協(xié)議[M].北京:機械工業(yè)出版社,2002年1月.[5]羅剛王振東.自己動手寫網(wǎng)絡爬蟲[M].北京:清華大學出版社,2010年10月.[6]李曉明,閆宏飛,王繼民.搜索引擎:原理、技術與系統(tǒng)——華夏英才基金學術文庫[M].北京:科學出版社,2005年04月.三、設計(研究)內容和要求(包括設計或研究內容、主要指標與技術
4、參數(shù),并根據(jù)課題性質對學生提出具體要求。)本課題的主要目的是設計面向主題的網(wǎng)絡爬蟲程序,同時需要滿足的是具有一定的性能,要考慮到網(wǎng)絡爬蟲的各種需求。網(wǎng)絡爬蟲應用寬度搜索技術。對url進行分析,去重。網(wǎng)絡爬蟲使用多線程技術,讓爬蟲具備更強大的抓取能力。網(wǎng)絡爬蟲要實現(xiàn)對特定主題的爬取。網(wǎng)絡爬蟲還要完成信息提取任務,對于抓取回來的網(wǎng)頁提取出來:新聞、電子圖書、行業(yè)信息等。對網(wǎng)絡爬蟲的連接網(wǎng)絡設置連接及讀取時間,避免無限制的等待。研究網(wǎng)絡爬蟲的原理并實現(xiàn)爬蟲的相關功能。最終實現(xiàn)的網(wǎng)絡爬蟲應該能根據(jù)設定的主題,從設定的url進行一定深度的搜索,并最終得到
5、需要的數(shù)據(jù)。指導教師(簽字)年月日審題小組組長(簽字)年月日天津大學本科生畢業(yè)設計(論文)開題報告課題名稱網(wǎng)絡爬蟲設計與實現(xiàn)學院名稱軟件學院專業(yè)名稱軟件工程學生姓名張鳳龍指導教師陳錦言(內容包括:課題的來源及意義,國內外發(fā)展狀況,本課題的研究目標、研究內容、研究方法、研究手段和進度安排,實驗方案的可行性分析和已具備的實驗條件以及主要參考文獻等。)一.課題的來源及意義互聯(lián)網(wǎng)是一個龐大的非結構化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也
6、存在著一定的局限性。不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網(wǎng)頁。為了解決這個問題,一個靈活的爬蟲有著無可替代的重要意義。二.國內外發(fā)展狀況對于網(wǎng)絡爬蟲的研究從上世紀九十年代就開始了,目前爬蟲技術已經趨見成熟,網(wǎng)絡爬蟲是搜索引擎的重要組成部分。網(wǎng)絡上比較著名的開源爬蟲包括Nutch,Larbin,Heritrix。網(wǎng)絡爬蟲最重要的是網(wǎng)頁搜索策略(廣度優(yōu)先和最佳度優(yōu)先)和網(wǎng)頁分析策略(基于網(wǎng)絡拓撲的分析算法和基于網(wǎng)頁內容的網(wǎng)頁分析算法)。三.研究目標本論文主要研究搜索引擎的搜索器(網(wǎng)絡爬蟲
7、程序)的設計與實現(xiàn),實現(xiàn)簡單的可在后臺自動運行的爬蟲程序。1.可以多線程進行抓取。2.可以進行面向主題的抓取。四.研究內容本課題研究的內容是如何使網(wǎng)絡爬蟲靈活高效。1.如何具備更強的抓取能力。2.如何分辨重復的網(wǎng)頁內容。3.如何確定主題相關性。4.對于網(wǎng)絡時延等的處理。五.研究方法網(wǎng)絡爬蟲應用寬度搜索技術。對url進行分析,去重。網(wǎng)絡爬蟲使用多線程技術,讓爬蟲具備更強大的抓取能力。網(wǎng)絡爬蟲還要完成信息提取任務,對于抓取回來的網(wǎng)頁提取出來新聞等信息。對網(wǎng)絡爬蟲的連接網(wǎng)絡設置連接及讀取時間,避免無限制的等待。研究網(wǎng)絡爬蟲的原理并實現(xiàn)爬蟲的相關功能。
8、六.研究手段參考網(wǎng)上開源的網(wǎng)絡爬蟲和各種網(wǎng)絡爬蟲相關的書籍,在windows系統(tǒng)環(huán)境下開發(fā)。五.本課題進度安排:2010.12.20—2011.03.