數(shù)據(jù)理想化和訪問者理想化

ID：26523915

大?。?28.50 KB

頁數(shù)：10頁

時間：2018-11-27

資源描述：

《數(shù)據(jù)理想化和訪問者理想化》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、不完美的網(wǎng)站分析數(shù)據(jù)：數(shù)據(jù)理想化和訪問者理想化轉(zhuǎn)載：http://www.tovps.net　　一、技術(shù)理想化　　每種數(shù)據(jù)收集方式都有其獨特的技術(shù)優(yōu)勢，但沒有一種收集方式能完美的捕獲到訪問者在網(wǎng)站上的所有動作，每種技術(shù)也都會由于自身的局限性導(dǎo)致你看到的數(shù)據(jù)是并不完美的數(shù)據(jù)。以計算頁面停留時間為例，下圖是一次訪問的時間記錄：(圖示中時間皆為進入頁面的時刻)　　　　通常計算頁面停留時間的方法為：當(dāng)前頁面的進入時刻與下一頁面的進入時刻差。由此得知上例中頁面的停留分別如下：　　頁面A：5分鐘　　頁面B：1分鐘　　頁面C：4分鐘　　頁面D：?　　為什么頁面D

2、的停留時間沒有?沒錯，無論哪種收集方式都無法捕捉到頁面D的準確停留時間，原因很簡單，這些數(shù)據(jù)收集方式都無法捕捉到訪問者離開的時刻(或者在退出頁停留了半天沒做任何點擊，或者直接關(guān)閉了瀏覽器)。所以不同的工具廠商對退出頁的停留時間有不同的定義，有的統(tǒng)一計算為1分鐘，有的干脆認為是0分鐘?！　∧壳爸饕邢旅鎺追N技術(shù)或限制數(shù)據(jù)的獲取，或混淆現(xiàn)有收集到的數(shù)據(jù)?！　?.緩存　　這里說的緩存不是指物理芯片例如CPU的緩存，而是為了節(jié)約網(wǎng)絡(luò)資源，提高瀏覽網(wǎng)頁速度建立的瀏覽器緩存或代理服務(wù)器緩存。簡單的理解這兩種緩存就是，將曾經(jīng)訪問過的網(wǎng)頁內(nèi)容(包括圖片以及cook

3、ie文件等)存放在電腦或代理服務(wù)器里。當(dāng)你調(diào)用以前閱讀過的頁面時，可以直接調(diào)出緩存中的內(nèi)容，而不需要再次從網(wǎng)站服務(wù)器上重新傳送數(shù)據(jù)。　　下圖就是訪問一個網(wǎng)站后本地緩存文件夾中留下的文件記錄：　　　　由于當(dāng)訪問者通過本地緩存訪問網(wǎng)站時，并不會往網(wǎng)站服務(wù)器發(fā)送請求，服務(wù)器中自然也就不存在這次訪問的Log記錄。也就是說通過Web日志收集到的數(shù)據(jù)一定會丟失這部分流量?！　?.網(wǎng)絡(luò)爬蟲　　如果想要講清搜索引擎爬蟲的原理和算法恐怕單開一個章節(jié)都不夠，而且也不是這本書關(guān)注的內(nèi)容，所以這里就不再贅述。　　下面先給出一條網(wǎng)站服務(wù)器Log中的搜索引擎爬蟲記錄：　　20

4、3.208.60.178[10/Nov/2011:12:00:00+0800]"-""GET/index.phpHTTP/1.1"20030000"-""Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)"　　從上面log記錄可以看出：2011年11月10日12:00:00的時刻，Google的Googlebot(Google的搜索引擎爬蟲名)到訪并抓取了首頁/index.php?！　∵@意味著Web日志收集的數(shù)據(jù)中會混有這部分數(shù)據(jù)。同時需要提醒的是，爬蟲對網(wǎng)站服

5、務(wù)器的造訪僅僅為了下載抓取主要信息，網(wǎng)頁內(nèi)容并不會像網(wǎng)友訪問時在瀏覽器里得以展示;換句話說，也就是此時網(wǎng)頁源代碼里的JavaScript數(shù)據(jù)收集代碼是無法執(zhí)行的?！　?.防火墻　　由于防火墻的原理機制比較復(fù)雜，這里就不做詳細解釋，有興趣的可以從維基百科或別的資源了解?！　『唵蔚睦斫夥阑饓δ?，可以認為它就是在網(wǎng)絡(luò)中根據(jù)信任程度的高低，控制來回傳送的數(shù)據(jù)流。它就像一張過濾網(wǎng)時刻監(jiān)督過濾試圖通過它的數(shù)據(jù)流?！　　　》阑饓o網(wǎng)絡(luò)帶來安全的同時可能會阻止JavaScript腳本向數(shù)據(jù)收集服務(wù)器發(fā)送數(shù)據(jù)。這無疑又會使JavaScript標記丟失一部分流量。　

6、　二、訪問者理想化　　網(wǎng)站分析主要為了跟蹤訪問者在網(wǎng)站上的行動，但往往又被訪問者對個人電腦的行為所影響。也許這就是理想與現(xiàn)實的差距，因為你不能要求所有的網(wǎng)友都按照你想要的方式在網(wǎng)上遨游。　　1.IP設(shè)置　　Web日志收集數(shù)據(jù)時主要依靠訪問者的IP來區(qū)分唯一訪問者，但當(dāng)下面這種動態(tài)的IP分配方式出現(xiàn)時收集的數(shù)據(jù)出現(xiàn)誤差就難免了?！　　　∫慌_機器使用不同的IP很可能會造成統(tǒng)計到的訪問者要比實際的多?？梢钥闯鼍W(wǎng)站分析工具統(tǒng)計出的其實并不是真實的訪問者人數(shù)，只不過是一個個IP或一個個瀏覽器罷了。所以更不用說當(dāng)多個人使用同一臺電腦時能否被正確統(tǒng)計了?！　?.

7、JavaScript有效設(shè)置　　有些訪問者為了確保安全可能會選擇關(guān)閉瀏覽器里的JavaScript有效設(shè)置，這樣失去的不止是一些網(wǎng)頁特效;對采用JavaScript標記的工具商來說，失去的還有這部分訪問者在目標網(wǎng)站上的所有行動記錄?！　?.Cookie設(shè)置　　(1)禁用Cookie　　互聯(lián)網(wǎng)的普及將人們帶進全面的信息化社會，人們對個人信息的保護意識也逐漸強化起來。因為對隱私信息的敏感，一些人會選擇禁用Cookie?！　　　?上圖可以看出Cookie的設(shè)置可以分為第一方Cookie和第三方Cookie兩種設(shè)置，至于兩種Cookie的區(qū)別有興趣的可以查

8、閱網(wǎng)上資料)　　離開Cookie，采用JavaScript標記將無法區(qū)分訪問次數(shù)和唯一身份訪問者人數(shù)，沒有這兩個基本度量，

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 10



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

數(shù)據(jù)理想化和訪問者理想化

數(shù)據(jù)理想化和訪問者理想化

相關(guān)文章

相關(guān)標簽