一種基于模糊相似粗糙集的web搜索優(yōu)化方法

一種基于模糊相似粗糙集的web搜索優(yōu)化方法

ID:9289663

大?。?2.77 KB

頁數(shù):9頁

時(shí)間:2018-04-26

一種基于模糊相似粗糙集的web搜索優(yōu)化方法_第1頁
一種基于模糊相似粗糙集的web搜索優(yōu)化方法_第2頁
一種基于模糊相似粗糙集的web搜索優(yōu)化方法_第3頁
一種基于模糊相似粗糙集的web搜索優(yōu)化方法_第4頁
一種基于模糊相似粗糙集的web搜索優(yōu)化方法_第5頁
資源描述:

《一種基于模糊相似粗糙集的web搜索優(yōu)化方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、一種基于模糊相似粗糙集的WEB搜索優(yōu)化方法摘要?如何對(duì)Web信息搜索進(jìn)行優(yōu)化,是信息檢索的重要研究課題。本文基于模糊相似粗糙集,在語義結(jié)構(gòu)和Web的超鏈接結(jié)構(gòu)間建立起映射,從而提高Web搜索的速度和準(zhǔn)確率。關(guān)鍵詞?Web信息搜索;模糊分類;超鏈分析;模糊粗糙集;相似關(guān)系?1???引言Web作為信息制造、發(fā)布、加工與處理的主要平臺(tái),正以令人難以置信的速度在飛速發(fā)展著。如何在Web所提供的海駒量信息中發(fā)現(xiàn)有用的信息并加以有效利用螟,一直是人們努力研究的方向。搜索引擎盡是目前Web信息檢索的主要工具。傳統(tǒng)膻的搜索引擎大多是基于關(guān)鍵字匹配、目錄⒀分類等技術(shù),但在查詢速

2、度與查準(zhǔn)率、查全率等方面還具有較大的局限性。近幾年郴的研究發(fā)現(xiàn),分析Web網(wǎng)頁間的超鏈接結(jié)構(gòu)并充分利用,可以提高檢索的質(zhì)量。基于這種超鏈分析的思想,在1998年,SergerBrin和Lawren舁cePage提出了PageRank[肘1]算法。同年,提出了HITS[2]刎算法,還有其他一些研究者相繼提出了一汶些改進(jìn)算法,如SALSA、PHITS貓等,在實(shí)際應(yīng)用中取得了良好的效果。為棧了進(jìn)一步提高Web搜索的效率,我們提幗出了一種根據(jù)特定的需求,利用粗糙比較騸對(duì)Web信息的搜索路徑進(jìn)行優(yōu)化的方法崴。首先對(duì)用戶提交的反映用戶需求的網(wǎng)頁或關(guān)鍵字進(jìn)行模糊分

3、類,得到對(duì)信息空間夔的相似分類,再對(duì)識(shí)別出來的網(wǎng)頁集團(tuán)的孥9/9超鏈接結(jié)構(gòu)進(jìn)行分析,用網(wǎng)頁間作用力與【文本信息的混和相似度,得到網(wǎng)頁集團(tuán)在飄用戶需求信息上的相似類劃分。通過對(duì)各自所得到的基于相似關(guān)系的模糊粗糙集之蠻間相似程度的度量,找到與用戶需求最接近的網(wǎng)頁集團(tuán)的排序表,從而達(dá)到對(duì)We敦b信息搜索的優(yōu)化。本文首先回顧一些研傷究者在這一領(lǐng)域所做的一些相關(guān)工作;然ㄞ后在核心部分詳細(xì)論述了基于相似關(guān)系模糊粗糙集的Web搜索優(yōu)化策略;最后是療我們的結(jié)論。2???相關(guān)工作J.kl︷EInberg等在文[3]中提出We褸b結(jié)構(gòu)所呈現(xiàn)出來的自組織性,從而反映衷出Web

4、上的一些信息分布知識(shí)。他們認(rèn)泡為,盡管Web是一個(gè)分散的信息網(wǎng)絡(luò),杈但從全局來看,互不關(guān)聯(lián)的創(chuàng)建過程由于晉作者共同的偏好而使得信息源之間產(chǎn)生了纘愈來愈緊密的聯(lián)系,即通過超鏈接內(nèi)容相同或相關(guān)而自然地聚合在一起,形成一個(gè)哏個(gè)網(wǎng)頁集團(tuán)[4]。網(wǎng)頁集團(tuán)是指Web泓上一些網(wǎng)頁所組成的集合,組成集合的成郭員網(wǎng)頁指向集合內(nèi)其他成員網(wǎng)頁的超鏈接蛹數(shù),遠(yuǎn)比其指向集合外非成員網(wǎng)頁的超鏈甾接數(shù)多得多。從形式上看,集團(tuán)內(nèi)部鏈接妓密集,而集團(tuán)間鏈接稀疏,甚至根本不鏈接。集團(tuán)內(nèi)部的高密度鏈接通常表明構(gòu)成殷集團(tuán)的成員網(wǎng)頁具有一定的信息相關(guān)性。諷這一發(fā)現(xiàn)對(duì)于我們進(jìn)行Web信息搜索的弋優(yōu)化

5、具有很高的價(jià)值。PageRank算法和HITS算法是兩種影響相當(dāng)廣泛擢的鏈接分析算法。其中,PageRan萬k算法的基本出發(fā)點(diǎn)是試圖為整個(gè)Web 上的所有網(wǎng)頁賦予一個(gè)量化的表征權(quán)威度︳9/9的值,即通過迭代計(jì)算特征為每個(gè)網(wǎng)頁分啡配PageRank值。由于所有處理過綬程是離線進(jìn)行,因此不會(huì)為在線的查詢過訴程付出額外的代價(jià),但它最大的問題是沒肓有對(duì)主題進(jìn)行區(qū)分,因此,可能在返回結(jié)箭果中出現(xiàn)與主題無關(guān)的一些網(wǎng)頁排在前面醌的情況。HITS算法模型中,提出了權(quán)荇威性網(wǎng)頁和中心網(wǎng)頁的概念。其中,權(quán)威羥性網(wǎng)頁是被大量的超鏈接所指向的、包含恢高質(zhì)量的主題內(nèi)容的信息源。Hub

6、網(wǎng)頁蔽是指向和主題相關(guān)的權(quán)威網(wǎng)頁的一些不知腙名網(wǎng)頁,提供對(duì)高質(zhì)量主題內(nèi)容存取的信息源。它們之間具有互相增強(qiáng)的關(guān)系:一冉個(gè)“好的”Hub網(wǎng)頁應(yīng)該指向很多“好茴的”權(quán)威性網(wǎng)頁,一個(gè)“好的”權(quán)威性網(wǎng)頁應(yīng)該被很多“好的”Hub網(wǎng)頁所指向碡,這樣就需要通過一個(gè)迭代過程來計(jì)算每軛個(gè)網(wǎng)頁的Authority值和Hub哮值。Kleinberg所提出的具體計(jì)霆算方法如下:用傳統(tǒng)的基于關(guān)鍵字匹配的罌搜索引擎對(duì)用戶提交的查詢進(jìn)行搜索,得班到滿足條件的前n個(gè)網(wǎng)頁組成的基集S,榻再通過加入S引用的網(wǎng)頁和引用S的網(wǎng)頁兇得到一個(gè)更大的集合T。對(duì)于集合T中的呂任何網(wǎng)頁,用a(u)表示網(wǎng)頁

7、u的Authority值,用h(v)表示網(wǎng)頁むv的HubHITS算法是與特定查詢主汀題相關(guān)的方式,因此在速度上有一定的優(yōu)焚勢,但也可能由于沒有考慮鏈接的權(quán)重而究造成主題漂移現(xiàn)象,但經(jīng)過改進(jìn)的加權(quán)和修剪過濾等算法在一定程度上可以克服HITS算法的主題漂移問題。本文中所提耶出的Web搜索優(yōu)化策略是在Web語義薦9/9結(jié)構(gòu)和網(wǎng)頁集團(tuán)的拓?fù)浣Y(jié)構(gòu)之間建立起一奩種映射,也就是在網(wǎng)頁集團(tuán)的拓?fù)浣Y(jié)構(gòu)中Е加入了用戶的信息需求,從而提高搜索的↑速度和質(zhì)量。在計(jì)算集團(tuán)內(nèi)網(wǎng)頁間相似度薰與衡量網(wǎng)頁重要性的工作中,我們引用了蜈HITS算法中Authority和H褻ub的計(jì)算方法。另

8、外,對(duì)于如何在We貢b中自動(dòng)識(shí)別網(wǎng)頁集

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。