deep+web數(shù)據(jù)源發(fā)現(xiàn)和選擇的研究

deep+web數(shù)據(jù)源發(fā)現(xiàn)和選擇的研究

ID:32016947

大?。?.84 MB

頁數(shù):80頁

時間:2019-01-30

deep+web數(shù)據(jù)源發(fā)現(xiàn)和選擇的研究_第1頁
deep+web數(shù)據(jù)源發(fā)現(xiàn)和選擇的研究_第2頁
deep+web數(shù)據(jù)源發(fā)現(xiàn)和選擇的研究_第3頁
deep+web數(shù)據(jù)源發(fā)現(xiàn)和選擇的研究_第4頁
deep+web數(shù)據(jù)源發(fā)現(xiàn)和選擇的研究_第5頁
資源描述:

《deep+web數(shù)據(jù)源發(fā)現(xiàn)和選擇的研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫

1、’,,IL‘、/{‘’:{。鉗麓留}擘AThesisfortheDegreeofMasterinComputerApplicationTechnologyStudyonDataSourcesDiscoveryandSelectiononDeep腑bbyLiMeifangSupervisor:ProfessorShenDerongNortheasternUniversityJanuary2008■£-●■■■●■I、,、群d冬翻纓1●J】1■J●《,?{I獨創(chuàng)性聲明本人聲明所呈交的學位論文是在導師的指導

2、下完成的。論文中取得的研究成果除加以標注和致謝的地方外,不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包括本人為獲得其他學位而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示誠摯的謝意。學位論文作者簽名:翻來蔦簽字El期:+砌孑.2.切學位論文版權(quán)使用授權(quán)書本學位論文作者和指導教師完全了解東北大學有關保留、使用學位論文的規(guī)定:即學校有權(quán)保留并向國家有關部門或機構(gòu)送交論文的復印件和磁盤,允許論文被查閱和借閱。本人同意東北大學可以將學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫

3、進行檢索、交流。(如作者和導師同意網(wǎng)上交流,請在下方簽名:否則視為不同意)學位論文作者簽名:棚導師簽名:討哆蕁簽字Et期:加諺I工,2,0簽字Et期:刃矽占、z.如tHiⅣ0●J,r、jl_‘J,‘1J■■■IlIl■●o磊蔓'、東北大學碩士學位論文摘要DeepWeb數(shù)據(jù)源發(fā)現(xiàn)和選擇研究摘要隨著Intemet信息的迅速增長,DeepWeb數(shù)據(jù)資源的數(shù)量急劇增加。然而,這些數(shù)據(jù)信息只能通過動態(tài)查詢響應來獲取,不容易被傳統(tǒng)的搜索引擎如Google、百度搜索到,因此并未得到充分的利用。因此,探索和研究支持D

4、eepW曲查詢搜索引擎從而滿足實際用戶的廣泛需求,成為信息領域研究的重點。由于DeepW

5、eb的自身特點,實現(xiàn)其數(shù)據(jù)資源集成在技術上存在很大難度。為了發(fā)現(xiàn)和集成這些DeepWeb資源,本文首先分析了DeepWeb國內(nèi)外研究現(xiàn)狀,提出了DeepWeb數(shù)據(jù)集成系統(tǒng)框架,分析了其主要的四種機制:知識庫構(gòu)建機制、查詢處理機制、查詢轉(zhuǎn)換機制和結(jié)果集成機制,并闡述了DeepWeb集成的難點。其次,本文闡述了DeepWeb爬蟲框架,通過分析接121類型和表單處理機制,包括表單解析、表單特征提取、表單模式匹配和表單聚

6、類和分類,結(jié)合數(shù)據(jù)源接口發(fā)現(xiàn)四層模型,提出了基于領域的表單爬蟲框架DeepRunner,提出基于領域的DeepWeb數(shù)據(jù)源發(fā)現(xiàn)算法DOER來獲取領域數(shù)據(jù)源。本文從理論上闡述DeepWeb的屬性分布和問題描述,分析了Top.k查詢技術和主流算法,結(jié)合Top.k算法的優(yōu)點,提出了基于屬性支配模式增長算法的Top-k數(shù)據(jù)源選擇策略,并且結(jié)合屬性間共現(xiàn)度特征,進一步改進算法,提高了算法執(zhí)行的查準率和查全率,從而提高了用戶查詢服務的質(zhì)量。最后,本文闡述DeepWeb查詢轉(zhuǎn)換和查詢結(jié)果集成機制。實驗表明,本文的D

7、eepRunner框架可以獲取DeepWeb領域數(shù)據(jù)源,驗證了其可行性;通過大量的實驗數(shù)據(jù),本文驗證了基于領域的數(shù)據(jù)源發(fā)現(xiàn)算法DOER的優(yōu)越性,也證明了基于屬性支配模式增長算法的Top.k數(shù)據(jù)源選擇算法及其改進算法的有效性,尤其在大規(guī)模數(shù)據(jù)集成中,這兩種算法效率顯著高于傳統(tǒng)的Top.k數(shù)據(jù)源選擇策略。關鍵詞:DeepWeb,領域,數(shù)據(jù)源發(fā)現(xiàn),數(shù)據(jù)源選擇,Top-k,屬性支配模式增長算法,共現(xiàn)-II-灑{d一:1●—■■■■—●I、童I‘東北大學碩士學位論文AbstractStudyonDataSour

8、cesDiscoveryandSelectiononDeepWebAbstractAstheincreasinglydevelopmentofIntemet,theamountofdatasourcesonDeepWebisrapidlygrowing.However,thesedatasourcescanonlybeacquiredbydynamicqueryresponses.Hardlycantheybeindexedandsearchedbytraditionalsearchenginesuc

9、hasGoogleandBaidu,andthustheyarenotfullyutilized.Therefore,exploringandstudyonDeepWebquerysearchenginetosatisfythewidedemandsofusershavebecometheprimaryfocusofinformationresearch.However,forthefeaturesofDeepWeb,itisverydifficultt

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。