資源描述:
《Web智能代理的預(yù)取技術(shù)和緩存技術(shù).pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、天津大學(xué)學(xué)報(bào)第34卷第5期2001年9月JOURNALOFTIANJINUNIVERSITYVol.34No.5Sep.2001Web智能代理的預(yù)取技術(shù)和緩存技術(shù)趙政,張鋼,楊潔,王松,舒炎泰(天津大學(xué)電子信息工程學(xué)院,天津300072)摘要:針對(duì)同一個(gè)工作組中成員可能對(duì)Web有相似的興趣點(diǎn)和訪問(wèn)習(xí)慣問(wèn)題,研究了主要包括緩存和預(yù)取兩個(gè)部分的智能代理技術(shù);研究了代理緩存三種替換算法:LRU和LRU的兩種變種.仿真試驗(yàn)表明,LRU算法的命中率極差,將LRU的兩種變種相結(jié)合則是一種較好的方案.通過(guò)引入預(yù)測(cè)算法和門限算法,代理服務(wù)器可以預(yù)測(cè)最近將要訪問(wèn)到的頁(yè)面,并在客戶實(shí)際請(qǐng)
2、求提出之前有選擇地下載.因?yàn)閱蝹€(gè)客戶訪問(wèn)某個(gè)頁(yè)面的歷史次數(shù)往往不夠多,將預(yù)測(cè)算法放在代理服務(wù)器上比放在客戶端的預(yù)測(cè)概率更準(zhǔn)確.通過(guò)在代理服務(wù)器上實(shí)現(xiàn)緩存和預(yù)取技術(shù),可減少用戶訪問(wèn)Web的響應(yīng)時(shí)間,還可減少實(shí)際訪問(wèn)Web服務(wù)器的總次數(shù).并提出了一個(gè)為發(fā)展中國(guó)家用戶縮減Web訪問(wèn)代價(jià)的有效方法.關(guān)鍵詞:萬(wàn)維網(wǎng);智能代理;預(yù)取;緩存;門限中圖分類號(hào):TP393.4文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0493-2137(2001)05-0563-05用圖1可確定成員興趣的相似程度.在圖中,觀1工作組成員訪問(wèn)興趣分布分析察到三個(gè)不同工作組在qn=5%時(shí)的Xn值是介于10%~20%,表明這三個(gè)
3、工作組成員的Web訪問(wèn)有著為了證實(shí)同一個(gè)工作組成員可能有相同的興趣足夠的相似度.進(jìn)而訪問(wèn)相似的頁(yè)面,該課題通過(guò)對(duì)三個(gè)工作小組長(zhǎng)達(dá)3個(gè)月的Web訪問(wèn)日志文件的分析,統(tǒng)計(jì)出全部訪2緩存替換算法的改進(jìn)問(wèn)的URL和相應(yīng)訪問(wèn)頻度.定義:特定頁(yè)面的訪問(wèn)次數(shù)如果Web頁(yè)面在第1次被訪問(wèn)時(shí)存放于CacheQn=全部頁(yè)面的訪問(wèn)次數(shù)中,則該頁(yè)面下次被該成員或其他同組成員訪問(wèn)時(shí)會(huì)達(dá)到某個(gè)Qn的頁(yè)面數(shù)Pn=獲得很高的效率.由于采用了預(yù)取技術(shù),某一Web頁(yè)所訪問(wèn)過(guò)的頁(yè)面總數(shù)面在首次被訪問(wèn)時(shí)可能已經(jīng)被預(yù)取到Cache中,從而Xn=∑PnQ>qnn減少Web服務(wù)器的負(fù)載和用戶訪問(wèn)的延遲,提高了代Xn
4、和Qn的關(guān)系如圖1所示.理Cache的性能.提高代理服務(wù)器Cache的命中率很困難,首先,Cache命中需要被一個(gè)用戶請(qǐng)求多次或被不同用戶多次使用;其次,由于大多數(shù)瀏覽器具有內(nèi)部緩存,因此用戶在一次會(huì)話中很少對(duì)同一個(gè)頁(yè)面向代理服務(wù)器提出多次請(qǐng)求.這些因素都減少了代理服務(wù)器Cache的命中率.對(duì)于具有無(wú)限大磁盤空間的代理Cache,緩存頁(yè)面不會(huì)因?yàn)榭臻g缺乏而被替換,由此得到了真實(shí)代理圖1工作組成員Web訪問(wèn)興趣分布Cache的命中率上界.在對(duì)積累的3個(gè)月的真實(shí)WebFig.1Distributionofgroupinterests訪問(wèn)記錄進(jìn)行仿真后,得到了30%~50%的
5、命中率.收稿日期:2000-01-15;修回日期:2001-04-03.基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(69672031).作者簡(jiǎn)介:趙政(1948-),男,碩士,教授.·564·天津大學(xué)學(xué)報(bào)2001年第34卷第5期實(shí)際代理服務(wù)器只具有有限的磁盤空間,緩存頁(yè)面將LRU-THOLD算法需要計(jì)算域值,因此LRU-MIN是會(huì)因?yàn)榇疟P空間不足而被替換.作者比較了傳統(tǒng)其中最好的策略.這種策略不需要參數(shù)并且在大數(shù)情L(zhǎng)RU和兩種LRU變種等三種Cache替換算法.傳統(tǒng)況下性能良好.另一方面,LRU-THOLD算法需要較LRU算法對(duì)于WebCache有先天不足,因?yàn)椴粌H需要少的磁
6、盤空間,并且命中率隨Cache空間減小,下降較考慮時(shí)間因素,還需要考慮文件大小,文件類型以及其為緩慢(相對(duì)于LRU-MIN),該算法較好.另外,表1他的網(wǎng)絡(luò)性能參數(shù).因?yàn)閃eb文件通常是大小不同中緩存文件的生存期在不同的算法中差別很大,的,當(dāng)WebCache的大小有限時(shí),應(yīng)決定選擇Cache替LRU-THOLD算法中生存期幾乎比LRU的長(zhǎng)10倍.換策略,是否因一個(gè)大文件而替換掉許多的小文件(理這是由于文件替換的次數(shù)太頻繁,LRU算法中文件生論上,減少Cache中的文件總數(shù)導(dǎo)致命中率下降),保存期最短.存較少的大文件還是保存較多的小文件.為此采用了一種適應(yīng)性的策略,先使用
7、比較仿真結(jié)果表明,傳統(tǒng)LRU算法的命中率極LRU-MIN算法,當(dāng)Cache大小接近可用磁盤空間時(shí)[1]差,而LRU-MIN和LRU-THOLD算法的結(jié)果基本改用LRU-THOLD算法,LRU-THOLD使用的域值相同.所以選擇LRU-MIN和LRU-THOLD算法的逐漸減小直至Cache減小到較低水平.結(jié)合作為該研究緩存的替換算法.2.1Cache替換策略3預(yù)測(cè)算法假定新請(qǐng)求文件的大小是s,而且不在WebCache之中.預(yù)測(cè)算法是收集所有用戶的訪問(wèn)歷史記錄并預(yù)傳統(tǒng)的LRU算法是,當(dāng)WebCache的磁盤自由測(cè)用戶將要訪問(wèn)的頁(yè)面.代理服務(wù)器