資源描述:
《deep+web集成查詢系統(tǒng)預(yù)處理關(guān)鍵技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、●·●◆、中文摘要摘要隨著信息化技術(shù)的發(fā)展,人們越來越傾向于從網(wǎng)絡(luò)上獲取資源。傳統(tǒng)搜索引擎能夠檢索到的網(wǎng)絡(luò)資源稱為SurfaceWeb,而SurfaceWeb僅占整個Web資源的很少一部分。那些隱藏在Web數(shù)據(jù)庫中,靠提交查詢生成動態(tài)頁面獲取的資源稱為DeepWeb。DeepWeb信息含量大,領(lǐng)域相關(guān)度強,如何高效的獲取這些資源成為當(dāng)前研究的關(guān)鍵問題。Deepw曲集成查詢系統(tǒng)是由同領(lǐng)域的DeepWeb入口集成的一個全局查詢接口,通過對這個集成接口提交查詢,可以同時檢索到不同Web數(shù)據(jù)庫中的資源。預(yù)處理階段是
2、系統(tǒng)集成過程中的初始階段,它主要分三步進行:Web入口的發(fā)現(xiàn)、查詢接口模式抽取、查詢接口集成,其最終結(jié)果的好壞對后面查詢處理和結(jié)果處理有著重要影響。因此上述預(yù)處理階段各個步驟采用哪種技術(shù)能夠獲得更高的效率是本文研究的出發(fā)點。本文的主要研究工作如下:(1)分析了DeepWeb查詢表單的特征,針對現(xiàn)階段Web入口發(fā)現(xiàn)技術(shù)的優(yōu)缺點,提出將多分類器聚焦爬行技術(shù)應(yīng)用到Web入口發(fā)現(xiàn)上,重點給出各分類器的實現(xiàn)方法,并介紹了種子URL的選取策略;根據(jù)查詢表單分類過程的啟發(fā)式規(guī)則提出采用基于決策樹的表單分類方法,區(qū)分出那些
3、非Web入口的查詢表單。(2)研究Web入口的模式特征,針對HTML頁面的結(jié)構(gòu)性特征提出基于DOM樹和DWI對象模型的模式抽取方法,首先通過網(wǎng)頁解析器將接口頁面解析成DOM樹結(jié)構(gòu),然后遍歷DOM樹找出屬性元素及其對應(yīng)的標(biāo)簽,最后用DWI對象模型將查詢接口的模式信息表示出來。(3)比較現(xiàn)有模式匹配技術(shù)的優(yōu)劣勢,針對查詢接口屬性元素的特點,提出基于語義的模式匹配方法,該方法從簡單匹配和復(fù)雜匹配兩個角度分別給出了屬性相似度的計算公式,使得模式匹配具有更高的效率。針對所提出的預(yù)處理階段相關(guān)技術(shù),本文分別設(shè)計了具體實
4、驗,用實驗結(jié)果證明上述各個方法的有效性。關(guān)鍵詞:DeepWeb:Web入口發(fā)現(xiàn);模式抽??;模式匹配●'●、英文摘要ABSTRACTWiththedevelopmentofinformationtechnology,peoplef11"eincreasinglyinclinedtoobtainresourcesfromthenetwork.TheresourcesthatcanberetrievedbytraditionalsearchenginearecalledSurfaceWeb,whichonlyac
5、countedforasmallfractionoftllewholewebresources.TheresourceshiddeninWebdatabase,whichonlybeobtainedbysubmittingaqueryformtogeneratedynamicpagesareknownasDeepWeb.DeepWebcontainsalargenumberofspecializedinformation,SOhowtoaccesstotheseresourcesefficientlyhas
6、becomethekeyissueofcurrentresearch.DeepWebIntegratedQuerySystemisagiobalquerysystemwhichintegratedifferentqueryinterfacesinthesamefield.WeCallgetresourcesfromdifferentWebdatabasesbysubmittingqueryforminthisglobalinterface.Preprocessingisthefirststageinthep
7、rocessofsystemintegration,itmainlycontainsthreesteps:thediscoveryoftheWebinterface,queryinterfaceschemaextractionandqueryinterfaceintegration.Itsfinalresulthasagreatimpactonthenextstageofqueryprocessingandresultprocessing.Therefore,findingefficientmethodsi
8、neverystepofpreprocessingstageisthestartingpointofthisarticle.Themainresearchworksofthispaperare懿follows:(1)AnalysisingofthecharacteristicsoftheDeepWebqueryform,studingandcomparingtheadvantagesanddisadvantage