deep+web集成查詢系統(tǒng)預(yù)處理關(guān)鍵技術(shù)研究

deep+web集成查詢系統(tǒng)預(yù)處理關(guān)鍵技術(shù)研究

ID:34847052

大?。?.36 MB

頁數(shù):70頁

時間:2019-03-12

deep+web集成查詢系統(tǒng)預(yù)處理關(guān)鍵技術(shù)研究_第1頁
deep+web集成查詢系統(tǒng)預(yù)處理關(guān)鍵技術(shù)研究_第2頁
deep+web集成查詢系統(tǒng)預(yù)處理關(guān)鍵技術(shù)研究_第3頁
deep+web集成查詢系統(tǒng)預(yù)處理關(guān)鍵技術(shù)研究_第4頁
deep+web集成查詢系統(tǒng)預(yù)處理關(guān)鍵技術(shù)研究_第5頁
資源描述:

《deep+web集成查詢系統(tǒng)預(yù)處理關(guān)鍵技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、●·●◆、中文摘要摘要隨著信息化技術(shù)的發(fā)展,人們越來越傾向于從網(wǎng)絡(luò)上獲取資源。傳統(tǒng)搜索引擎能夠檢索到的網(wǎng)絡(luò)資源稱為SurfaceWeb,而SurfaceWeb僅占整個Web資源的很少一部分。那些隱藏在Web數(shù)據(jù)庫中,靠提交查詢生成動態(tài)頁面獲取的資源稱為DeepWeb。DeepWeb信息含量大,領(lǐng)域相關(guān)度強,如何高效的獲取這些資源成為當(dāng)前研究的關(guān)鍵問題。Deepw曲集成查詢系統(tǒng)是由同領(lǐng)域的DeepWeb入口集成的一個全局查詢接口,通過對這個集成接口提交查詢,可以同時檢索到不同Web數(shù)據(jù)庫中的資源。預(yù)處理階段是

2、系統(tǒng)集成過程中的初始階段,它主要分三步進行:Web入口的發(fā)現(xiàn)、查詢接口模式抽取、查詢接口集成,其最終結(jié)果的好壞對后面查詢處理和結(jié)果處理有著重要影響。因此上述預(yù)處理階段各個步驟采用哪種技術(shù)能夠獲得更高的效率是本文研究的出發(fā)點。本文的主要研究工作如下:(1)分析了DeepWeb查詢表單的特征,針對現(xiàn)階段Web入口發(fā)現(xiàn)技術(shù)的優(yōu)缺點,提出將多分類器聚焦爬行技術(shù)應(yīng)用到Web入口發(fā)現(xiàn)上,重點給出各分類器的實現(xiàn)方法,并介紹了種子URL的選取策略;根據(jù)查詢表單分類過程的啟發(fā)式規(guī)則提出采用基于決策樹的表單分類方法,區(qū)分出那些

3、非Web入口的查詢表單。(2)研究Web入口的模式特征,針對HTML頁面的結(jié)構(gòu)性特征提出基于DOM樹和DWI對象模型的模式抽取方法,首先通過網(wǎng)頁解析器將接口頁面解析成DOM樹結(jié)構(gòu),然后遍歷DOM樹找出屬性元素及其對應(yīng)的標(biāo)簽,最后用DWI對象模型將查詢接口的模式信息表示出來。(3)比較現(xiàn)有模式匹配技術(shù)的優(yōu)劣勢,針對查詢接口屬性元素的特點,提出基于語義的模式匹配方法,該方法從簡單匹配和復(fù)雜匹配兩個角度分別給出了屬性相似度的計算公式,使得模式匹配具有更高的效率。針對所提出的預(yù)處理階段相關(guān)技術(shù),本文分別設(shè)計了具體實

4、驗,用實驗結(jié)果證明上述各個方法的有效性。關(guān)鍵詞:DeepWeb:Web入口發(fā)現(xiàn);模式抽??;模式匹配●'●、英文摘要ABSTRACTWiththedevelopmentofinformationtechnology,peoplef11"eincreasinglyinclinedtoobtainresourcesfromthenetwork.TheresourcesthatcanberetrievedbytraditionalsearchenginearecalledSurfaceWeb,whichonlyac

5、countedforasmallfractionoftllewholewebresources.TheresourceshiddeninWebdatabase,whichonlybeobtainedbysubmittingaqueryformtogeneratedynamicpagesareknownasDeepWeb.DeepWebcontainsalargenumberofspecializedinformation,SOhowtoaccesstotheseresourcesefficientlyhas

6、becomethekeyissueofcurrentresearch.DeepWebIntegratedQuerySystemisagiobalquerysystemwhichintegratedifferentqueryinterfacesinthesamefield.WeCallgetresourcesfromdifferentWebdatabasesbysubmittingqueryforminthisglobalinterface.Preprocessingisthefirststageinthep

7、rocessofsystemintegration,itmainlycontainsthreesteps:thediscoveryoftheWebinterface,queryinterfaceschemaextractionandqueryinterfaceintegration.Itsfinalresulthasagreatimpactonthenextstageofqueryprocessingandresultprocessing.Therefore,findingefficientmethodsi

8、neverystepofpreprocessingstageisthestartingpointofthisarticle.Themainresearchworksofthispaperare懿follows:(1)AnalysisingofthecharacteristicsoftheDeepWebqueryform,studingandcomparingtheadvantagesanddisadvantage

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。