搜索引擎爬蟲(chóng)數(shù)據(jù)抓取

搜索引擎爬蟲(chóng)數(shù)據(jù)抓取

ID:15120143

大小:8.79 MB

頁(yè)數(shù):49頁(yè)

時(shí)間:2018-08-01

搜索引擎爬蟲(chóng)數(shù)據(jù)抓取_第1頁(yè)
搜索引擎爬蟲(chóng)數(shù)據(jù)抓取_第2頁(yè)
搜索引擎爬蟲(chóng)數(shù)據(jù)抓取_第3頁(yè)
搜索引擎爬蟲(chóng)數(shù)據(jù)抓取_第4頁(yè)
搜索引擎爬蟲(chóng)數(shù)據(jù)抓取_第5頁(yè)
資源描述:

《搜索引擎爬蟲(chóng)數(shù)據(jù)抓取》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、簡(jiǎn)單搜索引擎模型ASimpleScratchofSearchEngine作者史春奇,搜索工程師,中科院計(jì)算所畢業(yè),chunqi.shi@hotmail.comhttp://hi.baidu.com/shichunqi計(jì)劃:1,需求迫切07/06完成2,搜索引擎簡(jiǎn)單模型07/08完成3,信息導(dǎo)航模型07/16完成1/3數(shù)據(jù)抓取07/30預(yù)處理4,商家推廣模型5,未來(lái)本文是學(xué)習(xí)搜索引擎的涂鴉草稿,高深讀者請(qǐng)拐彎到:http://sewm.pku.edu.cn/IR-Guide.txt(北大搜索引擎小組--信息檢索指南)簡(jiǎn)單搜索引擎模型1ASimpleScratch

2、ofSearchEngine1第一章需求迫切2一)泛信息化2二)泛商品化2第二章導(dǎo)航模型--草根需求信息3第一節(jié)最直觀簡(jiǎn)單模型3第二節(jié)互聯(lián)網(wǎng)簡(jiǎn)單模型51.發(fā)展歷史62.大陸互聯(lián)網(wǎng)現(xiàn)狀73.草根需求10第三節(jié)網(wǎng)頁(yè)抓取簡(jiǎn)單模型101.最簡(jiǎn)單Spider抓取模型112.最簡(jiǎn)單Spider調(diào)度模型123.最簡(jiǎn)單Spider調(diào)度質(zhì)量模型154.最簡(jiǎn)單Spider調(diào)度策略模型185.Spider的常見(jiàn)問(wèn)題23第四節(jié)網(wǎng)頁(yè)預(yù)處理簡(jiǎn)單模型231.質(zhì)量篩選(QualitySelection)242.相似濾重(De-duplicate)353.反垃圾(Anti-spam)43第五節(jié)

3、索引存儲(chǔ)簡(jiǎn)單模型48第六節(jié)檢索框架簡(jiǎn)單模型48信息檢索評(píng)價(jià)指標(biāo)48第三章推廣模型--商家需求客戶49第四章未來(lái)49第一章需求迫切之前說(shuō)過(guò),搜索引擎是互聯(lián)網(wǎng)大爆炸后的新生事物,他的成功來(lái)源于兩個(gè)方面高度發(fā)展,一個(gè)是泛信息化,一個(gè)是泛商品化。一)泛信息化分為兩個(gè)方面,一方面是信息的類型呈百花齊放,另一方面是信息的數(shù)量呈海量增長(zhǎng)。1,信息種類繁多。大家切身感受到的是多媒體娛樂(lè)和社交聯(lián)系在互聯(lián)網(wǎng)上變得明顯的豐富起來(lái)。信息種類繁多不可避免會(huì)導(dǎo)致搜索引擎的種類繁多起來(lái)。而搜索引擎種類繁多這一點(diǎn),你可以看一下Google,Baidu提供的服務(wù)是多么繁多,你就知道了。參考百度

4、更多(http://www.baidu.com/more/),Google更多(http://www.google.com.hk/intl/en/options/),這些還不包括實(shí)驗(yàn)室(Lab)的產(chǎn)品。我們換個(gè)角度看這個(gè)問(wèn)題,看看現(xiàn)在已經(jīng)有多少種搜索引擎來(lái)滿足信息繁多的各種需求了,Wiki的搜索引擎列表(http://en.wikipedia.org/wiki/List_of_search_engines)有一個(gè)分類,顯示了10種類型,分別是,1)論壇,2)博客,3)多媒體(音樂(lè),視頻,電視),4)源代碼,5)P2P資源,6)Email,7)地圖,8)價(jià)格,9

5、)問(wèn)答信息,10)自然語(yǔ)言。我們知道信息爆發(fā)都是由需求帶動(dòng)的,那么目前有多少需求已經(jīng)有搜索引擎在滿足了呢?下面列出了14種類型,分別是,1)普通[知識(shí)],2)地理信息,3)會(huì)計(jì)信息,4)商業(yè)信息,5)企業(yè)信息,6)手機(jī)和移動(dòng)信息,7)工作信息,8)法律信息,9)醫(yī)療信息,10)新聞信息,11)社交信息,12)不動(dòng)產(chǎn)信息,13)電視信息,14)視頻游戲信息。2,信息海量增長(zhǎng)。類似,我們從搜索引擎的發(fā)展,反向來(lái)看信息增長(zhǎng)。搜索引擎的索引量是選擇收錄入庫(kù)的網(wǎng)頁(yè)數(shù),肯定小于或者遠(yuǎn)小于互聯(lián)網(wǎng)的信息量。最早Yahoo是人工編輯的目錄索引,就幾萬(wàn)和幾十萬(wàn)的級(jí)別。到Infos

6、eek,Google早期等的幾百萬(wàn)的索引量。到Baidu早期的千萬(wàn)、上億的索引量。到現(xiàn)在Google等上千億的索引量。如果你看一個(gè)網(wǎng)頁(yè)要1秒鐘,1000億網(wǎng)頁(yè)要看3171年,而且不吃不喝,一秒不停地看。如果你是愚公世家,你的祖輩在大禹治水的時(shí)候就開(kāi)始看網(wǎng)頁(yè),到現(xiàn)在你還沒(méi)看完。因此草根(Grassroots)用戶需要搜索引擎來(lái)滿足它們的信息的導(dǎo)航,草根用戶追求免費(fèi),快捷和有效的服務(wù)。二)泛商品化也分為兩個(gè)問(wèn)題,一方面,滿足新需求的商品種類繁多。另一方面,滿足老需求的新商品的種類繁多?,F(xiàn)在有很多新產(chǎn)品,你如果不推廣,很多有需求的人都找不到你,或者找到的不是你。舉例

7、啊,如果你不看新聞廣告,你都不知道有人在給狗狗舉行隆重的葬禮,那么你知道去那里找個(gè)滿意的祭司么?有人告訴你說(shuō)網(wǎng)上。那么你知道哪家的服務(wù)好么?又有人告訴你說(shuō)找論壇看評(píng)論。同樣,你了解商家怎么推銷自己的產(chǎn)品么?他們可以選擇在網(wǎng)上打廣告,可以找搜索引擎幫助推廣?,F(xiàn)在產(chǎn)品的確太多了,商家太多了,讓你都不知道何去何從。就說(shuō)最古老的飲食,現(xiàn)在遍地是餐飲,選哪個(gè)好了?如果某商家嫌客戶少,想打折推廣。古老的方式是掛大旗,發(fā)傳單。而今你要想讓更多的人看到,可以去互聯(lián)網(wǎng)花錢(qián)推廣,可能花同樣的錢(qián),被推廣的對(duì)象還是有迫切需求的潛在用戶。這樣你的廣告費(fèi)用花的會(huì)更有效果。而搜求引擎廣告,

8、滿足信息查詢需求的同時(shí),只要搜索的用戶

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。