httrack模擬搜索引擎爬蟲

ID：14409811

大小：77.00 KB

頁數(shù)：5頁

時(shí)間：2018-07-28

資源描述：

《httrack模擬搜索引擎爬蟲》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、這純粹是一條個(gè)人喜好，我經(jīng)常拿HTTrack模擬搜索引擎爬蟲用。HTTrack是一個(gè)網(wǎng)站鏡像工具，本來是用來抓取網(wǎng)站做離線瀏覽用的。但是我發(fā)現(xiàn)它的爬蟲特性和搜索引擎爬蟲非常的像，逐漸應(yīng)用到了自己的SEO工作中。其實(shí)這兩種看似不同的爬蟲做的都是同樣的工作，就是復(fù)制網(wǎng)站并存儲(chǔ)下來（搜索引擎的網(wǎng)頁快照就是被存儲(chǔ)下來的內(nèi)容）。以下是這個(gè)軟件的界面：HTTrack界面?軟件的官方網(wǎng)站是：http://www.httrack.com/軟件安裝后可以換成中文界面。一般用它來檢測網(wǎng)站的壞鏈接和測試搜索引擎對這個(gè)網(wǎng)站可能面臨的抓取問題。另外用它也可以探知一些SEO做法的由來。軟件的使用方法非常簡單，在“

2、Web地址”里填上URL就可以了。然后點(diǎn)“選項(xiàng)”，先看“掃描規(guī)則”掃描規(guī)則這樣的掃描規(guī)則搜索引擎也一定會(huì)有的，比如不收錄.exe文件,zip文件等等。然后不收錄一些特定的跟蹤鏈接，如ad.doubleclick.net。你需要把一些搜索引擎爬蟲不收錄的特征加進(jìn)去。然后在“搜尋”里面，很多的特征都是現(xiàn)在搜索引擎爬蟲的特征：搜尋搜索引擎不會(huì)接受cookie,所以取消“接收cookie”。至于“解析java文件”，google爬蟲也會(huì)去解析java文件的。這是一個(gè)像HTTrack這樣的通用爬蟲都可以做到的事情?？赡芎芏嗳诉€不知道，google會(huì)去試圖解析javascript代碼。如果你的頁面

3、上放很多javascript代碼，就會(huì)使爬蟲的停留時(shí)間增加，進(jìn)而影響爬蟲效率。這也可以算是為什么要把javascript代碼外調(diào)的另一個(gè)原因。還有，有些javascript代碼里面的URL，google爬蟲是可以收錄的，原因不明。這樣做可能是因?yàn)橛行﹥?nèi)容很好的網(wǎng)站，很多鏈接就是喜歡用javascript來做的緣故吧。但是不代表你的鏈接可以用javascript來做。HTTrack也同樣能識(shí)別并遵守robots.txt文件。至于urlhacks，就是讓那種帶www和不帶www的網(wǎng)址，如www.***.com和***.com。以及有斜杠和無斜杠的網(wǎng)址，如http://www.***.com

4、和www.***.com?能統(tǒng)一。這種網(wǎng)站上URL不統(tǒng)一的狀況爬蟲程序其實(shí)能很簡單的處理好。至于google為什么要網(wǎng)站所有者在webmastertool后臺(tái)指定一下“首選域”，是因?yàn)橛行┚W(wǎng)站www.***.com和***.com指向不同的內(nèi)容。所以google不能那么武斷的就認(rèn)為www.***.com和***.com是同一個(gè)網(wǎng)站。至于“流量控制”和“限制”，流量控制限制里面可以設(shè)置“連接數(shù)”和“深度”什么的。我相信google也有這些設(shè)置，不然，google的《網(wǎng)站質(zhì)量指南》里不會(huì)這么寫“如果站點(diǎn)地圖上的鏈接超過100個(gè)，則需要將站點(diǎn)地圖拆分為多個(gè)網(wǎng)頁?！敝劣谏疃?，有報(bào)告說，goog

5、le抓取的最大深度是12。超時(shí)時(shí)間可以設(shè)為10秒。還有其他“瀏覽器標(biāo)識(shí)”和“預(yù)存區(qū)”也和搜索引擎爬蟲一樣的。其他設(shè)置下面用它來抓取一個(gè)網(wǎng)站，看看會(huì)有什么樣的情況。首先爬蟲會(huì)去網(wǎng)站根目錄下訪問robots.txt文件，如果碰到該網(wǎng)站的二級域名，還會(huì)去二級域名下訪問robots.txt文件。這個(gè)和搜索引擎是一樣的。在抓取的時(shí)候，是多線程的，你可以實(shí)時(shí)的看到哪些URL正在被抓取以及速度怎么樣。很多人用它抓取完一個(gè)網(wǎng)站后會(huì)驚訝的發(fā)現(xiàn)有很多沒什么SEO價(jià)值的頁面在被抓取。而這些“垃圾鏈接”竟然還是最先被抓取到的。可惜這個(gè)爬蟲不支持nofollow屬性，不然更加能模擬google爬蟲。你還會(huì)用它發(fā)

6、現(xiàn)很多死鏈接和超時(shí)的頁面。要是經(jīng)常使用，你還會(huì)發(fā)現(xiàn)這個(gè)軟件的一個(gè)規(guī)律，就是在抓取那些動(dòng)態(tài)URL的時(shí)候，經(jīng)常會(huì)產(chǎn)生重復(fù)抓取的現(xiàn)象，抓取URL類似www.***.com/index.asp?=12345?這樣頁面會(huì)陷入到死循環(huán)當(dāng)中。這個(gè)和早期的google爬蟲又是一樣的。由此判斷，這應(yīng)該是爬蟲天生的一個(gè)弱點(diǎn)，可能它沒辦法實(shí)時(shí)的比較多個(gè)頁面的內(nèi)容，如果加上網(wǎng)頁程序在處理URLID的上遇到什么問題，就會(huì)重復(fù)抓取。也由此得出為什么要有URL靜態(tài)化了。URL的靜態(tài)化與其叫靜態(tài)化不如叫唯一化，其實(shí)只要給網(wǎng)頁內(nèi)容一個(gè)唯一的、結(jié)構(gòu)不容易陷入死循環(huán)的URL即可，這就是靜態(tài)化的本質(zhì)。google最新的聲明不

7、要靜態(tài)化，是不希望爬蟲從一種重復(fù)抓取陷入到另一種重復(fù)抓取才這樣說的。其實(shí)google舉例的那幾種不好的靜態(tài)化一般是不會(huì)發(fā)生的。只要你明白那些URL中的參數(shù)代表什么，還有不要把很多個(gè)參數(shù)直接rewrite到靜態(tài)化的URL里即可。用這個(gè)軟件，能讓你直觀的感受一個(gè)爬蟲是怎么工作的。對于讓一個(gè)新手正確認(rèn)識(shí)爬蟲有幫助。這個(gè)軟件的功能也差不多就這么多，要逼真的模擬搜索引擎爬蟲，就要用《google網(wǎng)站質(zhì)量指南》里提到的Lynx。但是Lynx是一個(gè)頁面一個(gè)頁

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

httrack模擬搜索引擎爬蟲

httrack模擬搜索引擎爬蟲

相關(guān)文章

相關(guān)標(biāo)簽