資源描述:
《一種基于模糊相似粗糙集的web搜索優(yōu)化方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、一種基于模糊相似粗糙集的WEB搜索優(yōu)化方法摘要?如何對(duì)Web信息搜索進(jìn)行優(yōu)化,是信息檢索的重要研究課題。本文基于模糊相似粗糙集,在語義結(jié)構(gòu)和Web的超鏈接結(jié)構(gòu)間建立起映射,從而提高Web搜索的速度和準(zhǔn)確率。關(guān)鍵詞?Web信息搜索;模糊分類;超鏈分析;模糊粗糙集;相似關(guān)系?1???引言Web作為信息制造、發(fā)布、加工與處理的主要平臺(tái),正以令人難以置信的速度在飛速發(fā)展著。如何在Web所提供的海駒量信息中發(fā)現(xiàn)有用的信息并加以有效利用螟,一直是人們努力研究的方向。搜索引擎盡是目前Web信息檢索的主要工具。傳統(tǒng)膻的搜索引擎大多是基于關(guān)鍵字匹配、目錄⒀分類等技術(shù),但在查詢速
2、度與查準(zhǔn)率、查全率等方面還具有較大的局限性。近幾年郴的研究發(fā)現(xiàn),分析Web網(wǎng)頁間的超鏈接結(jié)構(gòu)并充分利用,可以提高檢索的質(zhì)量。基于這種超鏈分析的思想,在1998年,SergerBrin和Lawren舁cePage提出了PageRank[肘1]算法。同年,提出了HITS[2]刎算法,還有其他一些研究者相繼提出了一汶些改進(jìn)算法,如SALSA、PHITS貓等,在實(shí)際應(yīng)用中取得了良好的效果。為棧了進(jìn)一步提高Web搜索的效率,我們提幗出了一種根據(jù)特定的需求,利用粗糙比較騸對(duì)Web信息的搜索路徑進(jìn)行優(yōu)化的方法崴。首先對(duì)用戶提交的反映用戶需求的網(wǎng)頁或關(guān)鍵字進(jìn)行模糊分
3、類,得到對(duì)信息空間夔的相似分類,再對(duì)識(shí)別出來的網(wǎng)頁集團(tuán)的孥9/9超鏈接結(jié)構(gòu)進(jìn)行分析,用網(wǎng)頁間作用力與【文本信息的混和相似度,得到網(wǎng)頁集團(tuán)在飄用戶需求信息上的相似類劃分。通過對(duì)各自所得到的基于相似關(guān)系的模糊粗糙集之蠻間相似程度的度量,找到與用戶需求最接近的網(wǎng)頁集團(tuán)的排序表,從而達(dá)到對(duì)We敦b信息搜索的優(yōu)化。本文首先回顧一些研傷究者在這一領(lǐng)域所做的一些相關(guān)工作;然ㄞ后在核心部分詳細(xì)論述了基于相似關(guān)系模糊粗糙集的Web搜索優(yōu)化策略;最后是療我們的結(jié)論。2???相關(guān)工作J.kl︷EInberg等在文[3]中提出We褸b結(jié)構(gòu)所呈現(xiàn)出來的自組織性,從而反映衷出Web
4、上的一些信息分布知識(shí)。他們認(rèn)泡為,盡管Web是一個(gè)分散的信息網(wǎng)絡(luò),杈但從全局來看,互不關(guān)聯(lián)的創(chuàng)建過程由于晉作者共同的偏好而使得信息源之間產(chǎn)生了纘愈來愈緊密的聯(lián)系,即通過超鏈接內(nèi)容相同或相關(guān)而自然地聚合在一起,形成一個(gè)哏個(gè)網(wǎng)頁集團(tuán)[4]。網(wǎng)頁集團(tuán)是指Web泓上一些網(wǎng)頁所組成的集合,組成集合的成郭員網(wǎng)頁指向集合內(nèi)其他成員網(wǎng)頁的超鏈接蛹數(shù),遠(yuǎn)比其指向集合外非成員網(wǎng)頁的超鏈甾接數(shù)多得多。從形式上看,集團(tuán)內(nèi)部鏈接妓密集,而集團(tuán)間鏈接稀疏,甚至根本不鏈接。集團(tuán)內(nèi)部的高密度鏈接通常表明構(gòu)成殷集團(tuán)的成員網(wǎng)頁具有一定的信息相關(guān)性。諷這一發(fā)現(xiàn)對(duì)于我們進(jìn)行Web信息搜索的弋優(yōu)化
5、具有很高的價(jià)值。PageRank算法和HITS算法是兩種影響相當(dāng)廣泛擢的鏈接分析算法。其中,PageRan萬k算法的基本出發(fā)點(diǎn)是試圖為整個(gè)Web 上的所有網(wǎng)頁賦予一個(gè)量化的表征權(quán)威度︳9/9的值,即通過迭代計(jì)算特征為每個(gè)網(wǎng)頁分啡配PageRank值。由于所有處理過綬程是離線進(jìn)行,因此不會(huì)為在線的查詢過訴程付出額外的代價(jià),但它最大的問題是沒肓有對(duì)主題進(jìn)行區(qū)分,因此,可能在返回結(jié)箭果中出現(xiàn)與主題無關(guān)的一些網(wǎng)頁排在前面醌的情況。HITS算法模型中,提出了權(quán)荇威性網(wǎng)頁和中心網(wǎng)頁的概念。其中,權(quán)威羥性網(wǎng)頁是被大量的超鏈接所指向的、包含恢高質(zhì)量的主題內(nèi)容的信息源。Hub
6、網(wǎng)頁蔽是指向和主題相關(guān)的權(quán)威網(wǎng)頁的一些不知腙名網(wǎng)頁,提供對(duì)高質(zhì)量主題內(nèi)容存取的信息源。它們之間具有互相增強(qiáng)的關(guān)系:一冉個(gè)“好的”Hub網(wǎng)頁應(yīng)該指向很多“好茴的”權(quán)威性網(wǎng)頁,一個(gè)“好的”權(quán)威性網(wǎng)頁應(yīng)該被很多“好的”Hub網(wǎng)頁所指向碡,這樣就需要通過一個(gè)迭代過程來計(jì)算每軛個(gè)網(wǎng)頁的Authority值和Hub哮值。Kleinberg所提出的具體計(jì)霆算方法如下:用傳統(tǒng)的基于關(guān)鍵字匹配的罌搜索引擎對(duì)用戶提交的查詢進(jìn)行搜索,得班到滿足條件的前n個(gè)網(wǎng)頁組成的基集S,榻再通過加入S引用的網(wǎng)頁和引用S的網(wǎng)頁兇得到一個(gè)更大的集合T。對(duì)于集合T中的呂任何網(wǎng)頁,用a(u)表示網(wǎng)頁
7、u的Authority值,用h(v)表示網(wǎng)頁むv的HubHITS算法是與特定查詢主汀題相關(guān)的方式,因此在速度上有一定的優(yōu)焚勢,但也可能由于沒有考慮鏈接的權(quán)重而究造成主題漂移現(xiàn)象,但經(jīng)過改進(jìn)的加權(quán)和修剪過濾等算法在一定程度上可以克服HITS算法的主題漂移問題。本文中所提耶出的Web搜索優(yōu)化策略是在Web語義薦9/9結(jié)構(gòu)和網(wǎng)頁集團(tuán)的拓?fù)浣Y(jié)構(gòu)之間建立起一奩種映射,也就是在網(wǎng)頁集團(tuán)的拓?fù)浣Y(jié)構(gòu)中Е加入了用戶的信息需求,從而提高搜索的↑速度和質(zhì)量。在計(jì)算集團(tuán)內(nèi)網(wǎng)頁間相似度薰與衡量網(wǎng)頁重要性的工作中,我們引用了蜈HITS算法中Authority和H褻ub的計(jì)算方法。另
8、外,對(duì)于如何在We貢b中自動(dòng)識(shí)別網(wǎng)頁集