資源描述:
《deep+web數(shù)據(jù)源發(fā)現(xiàn)和選擇的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、’,,IL‘、/{‘’:{。鉗麓留}擘AThesisfortheDegreeofMasterinComputerApplicationTechnologyStudyonDataSourcesDiscoveryandSelectiononDeep腑bbyLiMeifangSupervisor:ProfessorShenDerongNortheasternUniversityJanuary2008■£-●■■■●■I、,、群d冬翻纓1●J】1■J●《,?{I獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)
2、下完成的。論文中取得的研究成果除加以標(biāo)注和致謝的地方外,不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包括本人為獲得其他學(xué)位而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示誠(chéng)摯的謝意。學(xué)位論文作者簽名:翻來(lái)蔦簽字El期:+砌孑.2.切學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:即學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人同意東北大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)
3、進(jìn)行檢索、交流。(如作者和導(dǎo)師同意網(wǎng)上交流,請(qǐng)?jiān)谙路胶灻悍駝t視為不同意)學(xué)位論文作者簽名:棚導(dǎo)師簽名:討哆蕁簽字Et期:加諺I工,2,0簽字Et期:刃矽占、z.如tHiⅣ0●J,r、jl_‘J,‘1J■■■IlIl■●o磊蔓'、東北大學(xué)碩士學(xué)位論文摘要DeepWeb數(shù)據(jù)源發(fā)現(xiàn)和選擇研究摘要隨著Intemet信息的迅速增長(zhǎng),DeepWeb數(shù)據(jù)資源的數(shù)量急劇增加。然而,這些數(shù)據(jù)信息只能通過(guò)動(dòng)態(tài)查詢響應(yīng)來(lái)獲取,不容易被傳統(tǒng)的搜索引擎如Google、百度搜索到,因此并未得到充分的利用。因此,探索和研究支持D
4、eepW曲查詢搜索引擎從而滿足實(shí)際用戶的廣泛需求,成為信息領(lǐng)域研究的重點(diǎn)。由于DeepW
5、eb的自身特點(diǎn),實(shí)現(xiàn)其數(shù)據(jù)資源集成在技術(shù)上存在很大難度。為了發(fā)現(xiàn)和集成這些DeepWeb資源,本文首先分析了DeepWeb國(guó)內(nèi)外研究現(xiàn)狀,提出了DeepWeb數(shù)據(jù)集成系統(tǒng)框架,分析了其主要的四種機(jī)制:知識(shí)庫(kù)構(gòu)建機(jī)制、查詢處理機(jī)制、查詢轉(zhuǎn)換機(jī)制和結(jié)果集成機(jī)制,并闡述了DeepWeb集成的難點(diǎn)。其次,本文闡述了DeepWeb爬蟲框架,通過(guò)分析接121類型和表單處理機(jī)制,包括表單解析、表單特征提取、表單模式匹配和表單聚
6、類和分類,結(jié)合數(shù)據(jù)源接口發(fā)現(xiàn)四層模型,提出了基于領(lǐng)域的表單爬蟲框架DeepRunner,提出基于領(lǐng)域的DeepWeb數(shù)據(jù)源發(fā)現(xiàn)算法DOER來(lái)獲取領(lǐng)域數(shù)據(jù)源。本文從理論上闡述DeepWeb的屬性分布和問題描述,分析了Top.k查詢技術(shù)和主流算法,結(jié)合Top.k算法的優(yōu)點(diǎn),提出了基于屬性支配模式增長(zhǎng)算法的Top-k數(shù)據(jù)源選擇策略,并且結(jié)合屬性間共現(xiàn)度特征,進(jìn)一步改進(jìn)算法,提高了算法執(zhí)行的查準(zhǔn)率和查全率,從而提高了用戶查詢服務(wù)的質(zhì)量。最后,本文闡述DeepWeb查詢轉(zhuǎn)換和查詢結(jié)果集成機(jī)制。實(shí)驗(yàn)表明,本文的D
7、eepRunner框架可以獲取DeepWeb領(lǐng)域數(shù)據(jù)源,驗(yàn)證了其可行性;通過(guò)大量的實(shí)驗(yàn)數(shù)據(jù),本文驗(yàn)證了基于領(lǐng)域的數(shù)據(jù)源發(fā)現(xiàn)算法DOER的優(yōu)越性,也證明了基于屬性支配模式增長(zhǎng)算法的Top.k數(shù)據(jù)源選擇算法及其改進(jìn)算法的有效性,尤其在大規(guī)模數(shù)據(jù)集成中,這兩種算法效率顯著高于傳統(tǒng)的Top.k數(shù)據(jù)源選擇策略。關(guān)鍵詞:DeepWeb,領(lǐng)域,數(shù)據(jù)源發(fā)現(xiàn),數(shù)據(jù)源選擇,Top-k,屬性支配模式增長(zhǎng)算法,共現(xiàn)-II-灑{d一:1●—■■■■—●I、童I‘東北大學(xué)碩士學(xué)位論文AbstractStudyonDataSour
8、cesDiscoveryandSelectiononDeepWebAbstractAstheincreasinglydevelopmentofIntemet,theamountofdatasourcesonDeepWebisrapidlygrowing.However,thesedatasourcescanonlybeacquiredbydynamicqueryresponses.Hardlycantheybeindexedandsearchedbytraditionalsearchenginesuc
9、hasGoogleandBaidu,andthustheyarenotfullyutilized.Therefore,exploringandstudyonDeepWebquerysearchenginetosatisfythewidedemandsofusershavebecometheprimaryfocusofinformationresearch.However,forthefeaturesofDeepWeb,itisverydifficultt