資源描述:
《數(shù)據(jù)理想化和訪問者理想化》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、不完美的網(wǎng)站分析數(shù)據(jù):數(shù)據(jù)理想化和訪問者理想化轉(zhuǎn)載:http://www.tovps.net 一、技術(shù)理想化 每種數(shù)據(jù)收集方式都有其獨特的技術(shù)優(yōu)勢,但沒有一種收集方式能完美的捕獲到訪問者在網(wǎng)站上的所有動作,每種技術(shù)也都會由于自身的局限性導(dǎo)致你看到的數(shù)據(jù)是并不完美的數(shù)據(jù)。以計算頁面停留時間為例,下圖是一次訪問的時間記錄:(圖示中時間皆為進入頁面的時刻) 通常計算頁面停留時間的方法為:當(dāng)前頁面的進入時刻與下一頁面的進入時刻差。由此得知上例中頁面的停留分別如下: 頁面A:5分鐘 頁面B:1分鐘 頁面C:4分鐘 頁面D:? 為什么頁面D
2、的停留時間沒有?沒錯,無論哪種收集方式都無法捕捉到頁面D的準確停留時間,原因很簡單,這些數(shù)據(jù)收集方式都無法捕捉到訪問者離開的時刻(或者在退出頁停留了半天沒做任何點擊,或者直接關(guān)閉了瀏覽器)。所以不同的工具廠商對退出頁的停留時間有不同的定義,有的統(tǒng)一計算為1分鐘,有的干脆認為是0分鐘?! ∧壳爸饕邢旅鎺追N技術(shù)或限制數(shù)據(jù)的獲取,或混淆現(xiàn)有收集到的數(shù)據(jù)?! ?.緩存 這里說的緩存不是指物理芯片例如CPU的緩存,而是為了節(jié)約網(wǎng)絡(luò)資源,提高瀏覽網(wǎng)頁速度建立的瀏覽器緩存或代理服務(wù)器緩存。簡單的理解這兩種緩存就是,將曾經(jīng)訪問過的網(wǎng)頁內(nèi)容(包括圖片以及cook
3、ie文件等)存放在電腦或代理服務(wù)器里。當(dāng)你調(diào)用以前閱讀過的頁面時,可以直接調(diào)出緩存中的內(nèi)容,而不需要再次從網(wǎng)站服務(wù)器上重新傳送數(shù)據(jù)。 下圖就是訪問一個網(wǎng)站后本地緩存文件夾中留下的文件記錄: 由于當(dāng)訪問者通過本地緩存訪問網(wǎng)站時,并不會往網(wǎng)站服務(wù)器發(fā)送請求,服務(wù)器中自然也就不存在這次訪問的Log記錄。也就是說通過Web日志收集到的數(shù)據(jù)一定會丟失這部分流量?! ?.網(wǎng)絡(luò)爬蟲 如果想要講清搜索引擎爬蟲的原理和算法恐怕單開一個章節(jié)都不夠,而且也不是這本書關(guān)注的內(nèi)容,所以這里就不再贅述。 下面先給出一條網(wǎng)站服務(wù)器Log中的搜索引擎爬蟲記錄: 20
4、3.208.60.178[10/Nov/2011:12:00:00+0800]"-""GET/index.phpHTTP/1.1"20030000"-""Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)" 從上面log記錄可以看出:2011年11月10日12:00:00的時刻,Google的Googlebot(Google的搜索引擎爬蟲名)到訪并抓取了首頁/index.php?! ∵@意味著Web日志收集的數(shù)據(jù)中會混有這部分數(shù)據(jù)。同時需要提醒的是,爬蟲對網(wǎng)站服
5、務(wù)器的造訪僅僅為了下載抓取主要信息,網(wǎng)頁內(nèi)容并不會像網(wǎng)友訪問時在瀏覽器里得以展示;換句話說,也就是此時網(wǎng)頁源代碼里的JavaScript數(shù)據(jù)收集代碼是無法執(zhí)行的?! ?.防火墻 由于防火墻的原理機制比較復(fù)雜,這里就不做詳細解釋,有興趣的可以從維基百科或別的資源了解?! 『唵蔚睦斫夥阑饓δ?,可以認為它就是在網(wǎng)絡(luò)中根據(jù)信任程度的高低,控制來回傳送的數(shù)據(jù)流。它就像一張過濾網(wǎng)時刻監(jiān)督過濾試圖通過它的數(shù)據(jù)流?! 》阑饓o網(wǎng)絡(luò)帶來安全的同時可能會阻止JavaScript腳本向數(shù)據(jù)收集服務(wù)器發(fā)送數(shù)據(jù)。這無疑又會使JavaScript標記丟失一部分流量。
6、 二、訪問者理想化 網(wǎng)站分析主要為了跟蹤訪問者在網(wǎng)站上的行動,但往往又被訪問者對個人電腦的行為所影響。也許這就是理想與現(xiàn)實的差距,因為你不能要求所有的網(wǎng)友都按照你想要的方式在網(wǎng)上遨游。 1.IP設(shè)置 Web日志收集數(shù)據(jù)時主要依靠訪問者的IP來區(qū)分唯一訪問者,但當(dāng)下面這種動態(tài)的IP分配方式出現(xiàn)時收集的數(shù)據(jù)出現(xiàn)誤差就難免了?! ∫慌_機器使用不同的IP很可能會造成統(tǒng)計到的訪問者要比實際的多??梢钥闯鼍W(wǎng)站分析工具統(tǒng)計出的其實并不是真實的訪問者人數(shù),只不過是一個個IP或一個個瀏覽器罷了。所以更不用說當(dāng)多個人使用同一臺電腦時能否被正確統(tǒng)計了?! ?.
7、JavaScript有效設(shè)置 有些訪問者為了確保安全可能會選擇關(guān)閉瀏覽器里的JavaScript有效設(shè)置,這樣失去的不止是一些網(wǎng)頁特效;對采用JavaScript標記的工具商來說,失去的還有這部分訪問者在目標網(wǎng)站上的所有行動記錄?! ?.Cookie設(shè)置 (1)禁用Cookie 互聯(lián)網(wǎng)的普及將人們帶進全面的信息化社會,人們對個人信息的保護意識也逐漸強化起來。因為對隱私信息的敏感,一些人會選擇禁用Cookie?! ?上圖可以看出Cookie的設(shè)置可以分為第一方Cookie和第三方Cookie兩種設(shè)置,至于兩種Cookie的區(qū)別有興趣的可以查
8、閱網(wǎng)上資料) 離開Cookie,采用JavaScript標記將無法區(qū)分訪問次數(shù)和唯一身份訪問者人數(shù),沒有這兩個基本度量,