資源描述:
《基于xml的組件搜索引擎技術(shù)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、第51卷第S2期武漢大學(xué)學(xué)報(bào)(理學(xué)版)Vol.51No.S22005年12月J.WuhanUniv.(Nat.Sci.Ed.)Dec.2005,144~146文章編號(hào):167128836(2005)S220144203基于XML的組件搜索引擎技術(shù)呂煒(武漢大學(xué)軟件工程工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北武漢430072)摘要:分析了目前通用搜索引擎用于組件搜索的局限性,提出一種專用于組件的搜索引擎技術(shù).該技術(shù)通過(guò)組件分類方法對(duì)組件資源進(jìn)行統(tǒng)一描述,并利用組件庫(kù)技術(shù)能有效的針對(duì)組件進(jìn)行搜索.關(guān)鍵詞:組件;組件庫(kù);組件搜索引擎中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A0引言1通用Web搜索引擎基于
2、組件的軟件重用技術(shù)強(qiáng)調(diào)盡可能重用已有自從第1個(gè)搜索引擎WWWW(WorldWide的組件資源,通過(guò)組合滿足當(dāng)前開(kāi)發(fā)要求的組件,快WebWorm)在ColoradoUniversity成功開(kāi)發(fā)以來(lái),速地完成軟件開(kāi)發(fā)任務(wù).然而該技術(shù)仍面臨著一些web上的搜索引擎已經(jīng)發(fā)展到數(shù)百個(gè).雖然各個(gè)搜重要問(wèn)題,其中關(guān)鍵性的兩個(gè)問(wèn)題是如何對(duì)已經(jīng)開(kāi)索引擎的具體實(shí)現(xiàn)不盡相同,但一般仍由七個(gè)部分發(fā)的組件進(jìn)行分類以及如何方便組件重用者發(fā)現(xiàn)、組成:爬蟲(chóng)(Robot)、爬蟲(chóng)控制器、索引器、采集分析獲取組件.較好地解決這兩個(gè)問(wèn)題是基于組件的軟[2]器、頁(yè)面資源庫(kù)、索引庫(kù)、查詢模塊,如圖1所示.[1]件工程取
3、得成功的基本條件.現(xiàn)有通用Web搜索引擎基于以上的體系結(jié)構(gòu),一種可行的方法就是把這些組件存入組件庫(kù)中,例如Google、AltaVista、InfoSeek、WebCrawler、然后將組件庫(kù)放在Internet網(wǎng)上.然而,這項(xiàng)工作并Nutch等,已經(jīng)能較好地幫助用戶搜索因特網(wǎng)中的非想象的那樣簡(jiǎn)單.首先目前存在多種組件規(guī)范模文檔資源,包括HTML網(wǎng)頁(yè)、Word文檔、PDF文型,其次組件應(yīng)用的領(lǐng)域范圍廣泛,再者針對(duì)組件搜檔、PS文檔等.但是采用它們來(lái)搜索因特網(wǎng)中的組索的技術(shù)還不成熟.面臨這么多問(wèn)題,本文提出一種件資源,則遇到很多困難.因?yàn)橥ㄓ肳eb搜索引擎統(tǒng)一的組件描述體,并將
4、其作為發(fā)布模型發(fā)布于組件一般只是用來(lái)搜索具有特定后綴名的網(wǎng)頁(yè)和文檔資庫(kù)和網(wǎng)絡(luò),利用爬蟲(chóng)技術(shù)收集和分析組件描述體來(lái)建源,通過(guò)分析這些網(wǎng)頁(yè)和文檔資源的內(nèi)容來(lái)建立索立索引,最終達(dá)到提供針對(duì)組件的搜索技術(shù).引.而軟件組件不同于的網(wǎng)頁(yè)和文檔資源,它通常是圖1通用Web搜索引擎基本結(jié)構(gòu)收稿日期:2005210211作者簡(jiǎn)介:呂煒(19802),男,碩士生,現(xiàn)從事組件庫(kù)的管理及組件檢索研究.E2mail:Javvzz@163.com?1995-2007TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.第S2期呂煒:基于XML的組件搜索
5、引擎技術(shù)145二進(jìn)制代碼或字節(jié)碼,沒(méi)有特定的標(biāo)識(shí),并且是符合系分類的描述體片斷:某種標(biāo)準(zhǔn)的組件模型規(guī)范,例如,JavaBean,EJB,〈SoftwareComponent〉COM,ActiveX,CCM等.如果要從組件實(shí)體中提〈MainSchedule〉取組件接口信息,則必須依據(jù)組件實(shí)體所遵循的組〈ApplicationSoftware〉件模型.因此,Web搜索引擎很難根據(jù)特定的后綴〈finance/〉名標(biāo)識(shí)來(lái)定位組件資源,也不可能按照分析網(wǎng)頁(yè)或〈/ApplicationSoftware〉文檔資源那樣,從組件實(shí)體中提取接口信息.〈/MainSchedule〉〈SubDivi
6、sionalTables〉2專用軟件組件搜索引擎(SE4SC)〈ComponentSpec〉EJB〈/ComponentSpec〉〈DevelopmentPlatform〉WebLogic〈/Develop22.1組件分類mentPlatform〉搜索引擎能否快速高效的搜索的基礎(chǔ)是是否合〈RuntimePlatform〉Windows〈/RuntimePlat2理的對(duì)組件進(jìn)行分類.現(xiàn)有的分類方法主要采用信form〉息科學(xué)方法,有兩種形式:枚舉分類法和刻面分類〈/SubDivisionalTables〉法.枚舉分類法又稱體系分類法,將一個(gè)被關(guān)注的領(lǐng)〈/SoftwareCompo
7、nent〉域嚴(yán)格劃分為不相交的子領(lǐng)域,依次構(gòu)成層次結(jié)構(gòu),2.3軟件組件搜索引擎技術(shù)即要求把知識(shí)分解成越來(lái)越細(xì)的子集,把所有可能前有多種針對(duì)組件的搜索引擎技術(shù),例如卡耐的合成類包括在內(nèi).刻面分類方法將關(guān)鍵詞(術(shù)語(yǔ))基梅隆大學(xué)軟件工程研究所開(kāi)發(fā)的Agora,IBM開(kāi)置于一定的語(yǔ)境中,并從反映組件本質(zhì)特性的不同發(fā)的alphaBeans,此處則基于SE4SC體系結(jié)構(gòu)的搜[6]視角(刻面)將組件分類.每個(gè)刻面中有一組術(shù)語(yǔ),索技術(shù),提出一種具體方案.術(shù)語(yǔ)間由一般特殊關(guān)系和同義詞關(guān)系形成結(jié)構(gòu)化的2.3.1采集[3,4