資源描述:
《搜索引擎爬蟲數(shù)據(jù)抓取.docx》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、簡單搜索引擎模型ASimpleScratchofSearchEngine作者史春奇,搜索工程師,中科院計算所畢業(yè),chunqi.shi@hotmail.comhttp://hi.baidu.com/shichunqi計劃:1,需求迫切07/06完成2,搜索引擎簡單模型07/08完成3,信息導航模型07/16完成1/3數(shù)據(jù)抓取07/30預處理4,商家推廣模型5,未來本文是學習搜索引擎的涂鴉草稿,高深讀者請拐彎到:http://sewm.pku.edu.cn/IR-Guide.txt(北大搜索引擎小組--信息檢索
2、指南)簡單搜索引擎模型1ASimpleScratchofSearchEngine1第一章需求迫切2一)泛信息化2二)泛商品化2第二章導航模型--草根需求信息3第一節(jié)最直觀簡單模型3第二節(jié)互聯(lián)網(wǎng)簡單模型51.發(fā)展歷史62.大陸互聯(lián)網(wǎng)現(xiàn)狀73.草根需求10第三節(jié)網(wǎng)頁抓取簡單模型101.最簡單Spider抓取模型112.最簡單Spider調(diào)度模型123.最簡單Spider調(diào)度質(zhì)量模型154.最簡單Spider調(diào)度策略模型185.Spider的常見問題23第四節(jié)網(wǎng)頁預處理簡單模型231.質(zhì)量篩選(QualitySel
3、ection)242.相似濾重(De-duplicate)353.反垃圾(Anti-spam)43第五節(jié)索引存儲簡單模型48第六節(jié)檢索框架簡單模型48信息檢索評價指標48第三章推廣模型--商家需求客戶49第四章未來49第一章需求迫切之前說過,搜索引擎是互聯(lián)網(wǎng)大爆炸后的新生事物,他的成功來源于兩個方面高度發(fā)展,一個是泛信息化,一個是泛商品化。一)泛信息化分為兩個方面,一方面是信息的類型呈百花齊放,另一方面是信息的數(shù)量呈海量增長。1,信息種類繁多。大家切身感受到的是多媒體娛樂和社交聯(lián)系在互聯(lián)網(wǎng)上變得明顯的豐富起來
4、。信息種類繁多不可避免會導致搜索引擎的種類繁多起來。而搜索引擎種類繁多這一點,你可以看一下Google,Baidu提供的服務是多么繁多,你就知道了。參考百度更多(http://www.baidu.com/more/),Google更多(http://www.google.com.hk/intl/en/options/),這些還不包括實驗室(Lab)的產(chǎn)品。我們換個角度看這個問題,看看現(xiàn)在已經(jīng)有多少種搜索引擎來滿足信息繁多的各種需求了,Wiki的搜索引擎列表(http://en.wikipedia.org/wi
5、ki/List_of_search_engines)有一個分類,顯示了10種類型,分別是,1)論壇,2)博客,3)多媒體(音樂,視頻,電視),4)源代碼,5)P2P資源,6)Email,7)地圖,8)價格,9)問答信息,10)自然語言。我們知道信息爆發(fā)都是由需求帶動的,那么目前有多少需求已經(jīng)有搜索引擎在滿足了呢?下面列出了14種類型,分別是,1)普通[知識],2)地理信息,3)會計信息,4)商業(yè)信息,5)企業(yè)信息,6)手機和移動信息,7)工作信息,8)法律信息,9)醫(yī)療信息,10)新聞信息,11)社交信息,1
6、2)不動產(chǎn)信息,13)電視信息,14)視頻游戲信息。2,信息海量增長。類似,我們從搜索引擎的發(fā)展,反向來看信息增長。搜索引擎的索引量是選擇收錄入庫的網(wǎng)頁數(shù),肯定小于或者遠小于互聯(lián)網(wǎng)的信息量。最早Yahoo是人工編輯的目錄索引,就幾萬和幾十萬的級別。到Infoseek,Google早期等的幾百萬的索引量。到Baidu早期的千萬、上億的索引量。到現(xiàn)在Google等上千億的索引量。如果你看一個網(wǎng)頁要1秒鐘,1000億網(wǎng)頁要看3171年,而且不吃不喝,一秒不停地看。如果你是愚公世家,你的祖輩在大禹治水的時候就開始看網(wǎng)
7、頁,到現(xiàn)在你還沒看完。因此草根(Grassroots)用戶需要搜索引擎來滿足它們的信息的導航,草根用戶追求免費,快捷和有效的服務。二)泛商品化也分為兩個問題,一方面,滿足新需求的商品種類繁多。另一方面,滿足老需求的新商品的種類繁多?,F(xiàn)在有很多新產(chǎn)品,你如果不推廣,很多有需求的人都找不到你,或者找到的不是你。舉例啊,如果你不看新聞廣告,你都不知道有人在給狗狗舉行隆重的葬禮,那么你知道去那里找個滿意的祭司么?有人告訴你說網(wǎng)上。那么你知道哪家的服務好么?又有人告訴你說找論壇看評論。同樣,你了解商家怎么推銷自己的產(chǎn)品
8、么?他們可以選擇在網(wǎng)上打廣告,可以找搜索引擎幫助推廣?,F(xiàn)在產(chǎn)品的確太多了,商家太多了,讓你都不知道何去何從。就說最古老的飲食,現(xiàn)在遍地是餐飲,選哪個好了?如果某商家嫌客戶少,想打折推廣。古老的方式是掛大旗,發(fā)傳單。而今你要想讓更多的人看到,可以去互聯(lián)網(wǎng)花錢推廣,可能花同樣的錢,被推廣的對象還是有迫切需求的潛在用戶。這樣你的廣告費用花的會更有效果。而搜求引擎廣告,滿足信息查詢需求的同時,只要搜索的用戶