資源描述:
《基于動(dòng)力粒子群算法的網(wǎng)絡(luò)蜘蛛搜索策略研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、湖北工業(yè)大學(xué)碩士學(xué)位論文中局部最優(yōu)子空間的陷阱,利用模擬退火算法在選擇優(yōu)化解方面的“非貪婪性”,爬行網(wǎng)絡(luò)中每次除選擇價(jià)值最優(yōu)的鏈接(簡稱“最優(yōu)鏈接")外,還以一定概率有限度地接收價(jià)值次優(yōu)的鏈接,克服了現(xiàn)有Spider搜索方法啟發(fā)式策略中對(duì)URL選擇估計(jì)的非精確性和局部性,這些網(wǎng)絡(luò)蜘蛛都是對(duì)其網(wǎng)頁爬行的過程進(jìn)行智能化處理,從某種角度提高了搜索引擎的智能化程度。此外還有1994年的w曲naut、SPHⅣx、CIspider、TkM刪、CollabrotiVeSpider,1997年報(bào)告的neWebAnts、neR.BSE(RespositoryBasedSo腑areEn百neerin曲、
2、MetaCrawler,1998年報(bào)告的SmanItsyBitsySpider都從智能化的角度探討了網(wǎng)絡(luò)蜘蛛的實(shí)現(xiàn)。目前網(wǎng)絡(luò)蜘蛛的研究主要集中在三個(gè)方向:提高網(wǎng)絡(luò)蜘蛛的速度與爬行效率;網(wǎng)絡(luò)蜘蛛的爬行安全策略;信息獲取方式。搜索過程采用深度優(yōu)先和廣度優(yōu)先、最好優(yōu)先算法來遍歷IIltemet網(wǎng)絡(luò)。計(jì)算智能隨1(ComputationIIltelligence,CI)是從模擬自然界生物體系和生物智能現(xiàn)象發(fā)展而來,用計(jì)算機(jī)模擬和再現(xiàn)生物體的某些智能行為,并用于改造自然的工程實(shí)踐的一種新型人工智能研究領(lǐng)域。計(jì)算智能的最大特點(diǎn)就是不需要建立問題本身的精確模型,適合于解決那些因?yàn)殡y以建立有效的形式
3、化模型或用傳統(tǒng)人工智能技術(shù)又難以有效解決甚至無法解決的問題。群體智能這個(gè)概念來自對(duì)自然界中一些昆蟲的研究,群體智能的核心是由眾多簡單個(gè)體如螞蟻、蜜蜂、鳥類等組成的群體能夠通過相互之間的簡單合作來實(shí)現(xiàn)某一功能,完成某一任務(wù)。這些“簡單個(gè)體"是與其鄰近的個(gè)體進(jìn)行某種簡單的直接通信或通過改變環(huán)境間接與其它個(gè)體通信,從而可以相互影響、協(xié)同動(dòng)作。群體智能具有如下特點(diǎn):協(xié)作性(不但有行為上的支持而且還有信息上的共享)阻1、分布性(個(gè)體的行為是呈分散狀態(tài),但通過信息交流,整個(gè)群體的信息卻是全局的,因此群體行為往往可以達(dá)到全局最優(yōu))n們、魯棒性(不會(huì)因?yàn)槟骋粋€(gè)或者某幾個(gè)個(gè)體的故障而影響整個(gè)問題的求解
4、)n¨、自適應(yīng)性和快速性(個(gè)體的行為能力都十分簡單,但這些行為能根據(jù)環(huán)境的變化快速做出反應(yīng))。目前,群智能技術(shù)的兩種主要算法:蟻群算法n21和微粒群算法(Paniclesw姍optimization,PSO)已被應(yīng)用到多目標(biāo)優(yōu)化、數(shù)據(jù)分類、數(shù)據(jù)聚類n3
5、、模式識(shí)別、信號(hào)處理、決策支持以及仿真和系統(tǒng)辯識(shí)等方面,為解決這類應(yīng)用問題提供了新的途徑n5J。國內(nèi)有一些學(xué)者對(duì)群體智能算法及其相關(guān)領(lǐng)域的應(yīng)用展開了研究。作為群智能技術(shù)中一種的粒子群算法是全局優(yōu)化算法,它在解空間中隨機(jī)產(chǎn)生初始種群,搜索重點(diǎn)集中在性能高的部分;搜索過程是從問題解的一個(gè)集合而不是從單個(gè)個(gè)體開始,具有隱含并行性,減小了陷入
6、局部極小的可能;搜索是根據(jù)個(gè)體的適配信息進(jìn)行的,不受函數(shù)約束條件的限制,如連續(xù)性、可導(dǎo)性等;粒5湖北工業(yè)大學(xué)碩士學(xué)位論文子群算法有記憶,所有粒子都保存好的解的知識(shí);由于粒子通過內(nèi)部速度進(jìn)行更新,因此原理更簡單、參數(shù)更少、實(shí)現(xiàn)更容易。目前粒子群算法已被運(yùn)用到多目標(biāo)優(yōu)化、數(shù)據(jù)分類、數(shù)據(jù)聚類、模式識(shí)別、信號(hào)處理、決策支持以及仿真和系統(tǒng)辯識(shí)等方面,為解決這類應(yīng)用問題提供了新途徑。有鑒于此,將群智能技術(shù)特別是粒子群優(yōu)化算法運(yùn)用到智能垂直搜索引擎的這些關(guān)鍵性的、基礎(chǔ)性的問題之中,以改善垂直搜索引擎的性能,既具有理論基礎(chǔ),也適應(yīng)垂直搜索引擎技術(shù)發(fā)展的需要。近年來,在垂直搜索引擎網(wǎng)絡(luò)蜘蛛的研究過程中
7、,也提出了一些新的方法來提高其智能化程度,這些技術(shù)展現(xiàn)了一種有別于傳統(tǒng)視角的技術(shù)層次,例如蟻群算法、模擬退火算法、遺傳算法等智能計(jì)算方法,它們提供了更具普遍意義的分析技術(shù)和實(shí)現(xiàn)方法,為粒子群算法與垂直搜索引擎網(wǎng)絡(luò)蜘蛛的結(jié)合提供了可靠的研究經(jīng)驗(yàn)和有價(jià)值的思想方法。垂直搜索引擎中的許多問題如主題網(wǎng)絡(luò)蜘蛛的爬行策略、搜索結(jié)果的聚類、文本特征屬性約簡等本質(zhì)上就是一個(gè)優(yōu)化問題,將群智能技術(shù)特別是粒子群算法n羽運(yùn)用到垂直搜索引擎的網(wǎng)絡(luò)蜘蛛搜索策略中來,在國內(nèi)外的大量研究還鮮見。因此,如何在垂直搜索引擎中融入智能計(jì)算技術(shù),以及在獲取有價(jià)值網(wǎng)頁中如何體現(xiàn)智能搜索行為應(yīng)成為Web應(yīng)用發(fā)展的新課題。1.
8、3論文的主要工作和創(chuàng)新點(diǎn)本文在研究傳統(tǒng)搜索引擎技術(shù)實(shí)現(xiàn)的同時(shí),結(jié)合現(xiàn)有的垂直搜索引擎技術(shù)和粒子群算法等智能計(jì)算技術(shù),對(duì)垂直搜索引擎進(jìn)行了深入系統(tǒng)的研究,并在此基礎(chǔ)上對(duì)垂直搜索引擎所涉及到技術(shù)中的網(wǎng)絡(luò)蜘蛛爬行策略問題提出了新的思考和見解,論文的主要貢獻(xiàn)如下:針對(duì)傳統(tǒng)的基于單一價(jià)值評(píng)價(jià)的搜索策略存在主題漂移、容易迷失方向、過于依賴關(guān)鍵詞集、收集結(jié)果易陷入局部最優(yōu)等不足,提出了基于動(dòng)力學(xué)粒子群算法的新的啟發(fā)式搜索算法。根據(jù)w曲資源分布的群聚性特點(diǎn),利用動(dòng)力學(xué)粒子