deep web數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究

deep web數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究

ID:35121743

大?。?.79 MB

頁(yè)數(shù):48頁(yè)

時(shí)間:2019-03-19

deep web數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究_第1頁(yè)
deep web數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究_第2頁(yè)
deep web數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究_第3頁(yè)
deep web數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究_第4頁(yè)
deep web數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究_第5頁(yè)
資源描述:

《deep web數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、河北大學(xué)碩士學(xué)位論文DeepWeb數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究姓名:常勇申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:袁方20090501摘要摘要隨著人們對(duì)網(wǎng)絡(luò)環(huán)境下信息檢索研究的不斷深入,DeepWeb數(shù)據(jù)集成系統(tǒng)的相關(guān)研究越來越多地受JUT人們的關(guān)注。DeepWcb是與SurfaceWeb相對(duì)應(yīng)的概念,它是指那些不能被主流的搜索引擎搜索到、動(dòng)態(tài)地根據(jù)用戶提交的關(guān)鍵詞所生成的Web數(shù)據(jù)信息。數(shù)據(jù)標(biāo)注作為DeepWeb數(shù)據(jù)集成系統(tǒng)中一個(gè)重要的組成部分,它的主要工作是對(duì)抽取的查詢返回結(jié)果數(shù)據(jù)進(jìn)行標(biāo)注,使其成為有語(yǔ)義信息的數(shù)據(jù),使得計(jì)算機(jī)可識(shí)別、可處理。

2、本文在分析TDeepWeb網(wǎng)站查詢結(jié)果頁(yè)面及其數(shù)據(jù)表現(xiàn)形式的基礎(chǔ)上,介紹了結(jié)果模式、標(biāo)注領(lǐng)域的對(duì)象模型并給出了它們的形式化表示,同時(shí)給出了數(shù)據(jù)標(biāo)注思想的描述。本文將DeepWeb網(wǎng)站查詢返回結(jié)果內(nèi)容分為三種類型:(1)內(nèi)容中含有領(lǐng)域知識(shí);(2)內(nèi)容中不含有領(lǐng)域知識(shí);(3)部分內(nèi)容含有領(lǐng)域知識(shí),其余內(nèi)容不含有領(lǐng)域知識(shí)的混合類型。針對(duì)這三種類型使用了兩種基本標(biāo)注方法:領(lǐng)域知識(shí)標(biāo)注方法和決策樹標(biāo)注方法,用它們單獨(dú)以及聯(lián)合標(biāo)注這三種類型。為了避免對(duì)--DeepWeb網(wǎng)站查詢結(jié)果數(shù)據(jù)的反復(fù)處理,在前面兩種基本標(biāo)注方法的基礎(chǔ)上,使用了模板標(biāo)注方法。同時(shí)使用了兩種

3、輔助標(biāo)注方法:實(shí)體標(biāo)注方法和啟發(fā)式規(guī)則標(biāo)注方法。這兩種方法主要是用來檢驗(yàn)和修正其他標(biāo)注方法的標(biāo)注結(jié)果。本文對(duì)各種標(biāo)注方法采用的主要信息做了說明,對(duì)各種標(biāo)注方法的模型做了介紹并給出了形式化表示,對(duì)各種標(biāo)注方法處理中遇到的相關(guān)問題做了具體分析。實(shí)驗(yàn)結(jié)果表明,本文使用的標(biāo)注方法對(duì)查詢結(jié)果數(shù)據(jù)具有較好的標(biāo)注效果。關(guān)鍵詞DeepWeb數(shù)據(jù)標(biāo)注領(lǐng)域知識(shí)決策樹AbstractInthenetworkenvironment,嬲thefurtherstudyoninformationretrieval,moreandmorepeoplepayattentiontoDe

4、epWebdataintegrationsystem.DeepWebisarelativeconeeptofSurfaceWeb.ItreferstotheWebinformationthatcannotberetrievedbythenormalsearchengine,butgenerateddynamicallyaccordingtothesearchwords.Dataannotation嬲allimportantcomponentofDeepWebdataintegrationsystem,itsmainworkistoannotateth

5、edataextractedfromthesearchresults,andmakethedataidentifiedandOnthebaSisoftheanalysisoftheDeepWebsitesearchresultpagesandthedatastyle,thedissertationintroducestheconceptionoftheresultschema,objectmodeloftheannotationdomainandgivestheformaldescriptionsofthem.Alsothedissertationd

6、escribestheannotationthoughtofthispaper.Thedissertationcategoriesthesearchresultcontentintothreetypes:first,thecontentcontaindomainknowledge;second,thecontentdonotcontaindomainknowledge;third,themixedtype:somecontentcontaindomainknowledgeandothersdonot.Forthesethreetypes,thedis

7、sertationUSeStwobaSicannotationmethods:domainknowledgeannotationanddecisiontreeannotationtoannotatethreetypesseparatelyandtogether.InordertoeliminatetherepeateddatachargingofthesameDeepWebsitetoimprovetheefficiency,onthebasisofthetwobaSicannotationmethods,thedissertationBsesthe

8、modelannotationmethod.ThedissertationalsousestwoaSsist

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。