資源描述:
《deep web數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、河北大學(xué)碩士學(xué)位論文DeepWeb數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)標(biāo)注研究姓名:常勇申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:袁方20090501摘要摘要隨著人們對(duì)網(wǎng)絡(luò)環(huán)境下信息檢索研究的不斷深入,DeepWeb數(shù)據(jù)集成系統(tǒng)的相關(guān)研究越來越多地受JUT人們的關(guān)注。DeepWcb是與SurfaceWeb相對(duì)應(yīng)的概念,它是指那些不能被主流的搜索引擎搜索到、動(dòng)態(tài)地根據(jù)用戶提交的關(guān)鍵詞所生成的Web數(shù)據(jù)信息。數(shù)據(jù)標(biāo)注作為DeepWeb數(shù)據(jù)集成系統(tǒng)中一個(gè)重要的組成部分,它的主要工作是對(duì)抽取的查詢返回結(jié)果數(shù)據(jù)進(jìn)行標(biāo)注,使其成為有語(yǔ)義信息的數(shù)據(jù),使得計(jì)算機(jī)可識(shí)別、可處理。
2、本文在分析TDeepWeb網(wǎng)站查詢結(jié)果頁(yè)面及其數(shù)據(jù)表現(xiàn)形式的基礎(chǔ)上,介紹了結(jié)果模式、標(biāo)注領(lǐng)域的對(duì)象模型并給出了它們的形式化表示,同時(shí)給出了數(shù)據(jù)標(biāo)注思想的描述。本文將DeepWeb網(wǎng)站查詢返回結(jié)果內(nèi)容分為三種類型:(1)內(nèi)容中含有領(lǐng)域知識(shí);(2)內(nèi)容中不含有領(lǐng)域知識(shí);(3)部分內(nèi)容含有領(lǐng)域知識(shí),其余內(nèi)容不含有領(lǐng)域知識(shí)的混合類型。針對(duì)這三種類型使用了兩種基本標(biāo)注方法:領(lǐng)域知識(shí)標(biāo)注方法和決策樹標(biāo)注方法,用它們單獨(dú)以及聯(lián)合標(biāo)注這三種類型。為了避免對(duì)--DeepWeb網(wǎng)站查詢結(jié)果數(shù)據(jù)的反復(fù)處理,在前面兩種基本標(biāo)注方法的基礎(chǔ)上,使用了模板標(biāo)注方法。同時(shí)使用了兩種
3、輔助標(biāo)注方法:實(shí)體標(biāo)注方法和啟發(fā)式規(guī)則標(biāo)注方法。這兩種方法主要是用來檢驗(yàn)和修正其他標(biāo)注方法的標(biāo)注結(jié)果。本文對(duì)各種標(biāo)注方法采用的主要信息做了說明,對(duì)各種標(biāo)注方法的模型做了介紹并給出了形式化表示,對(duì)各種標(biāo)注方法處理中遇到的相關(guān)問題做了具體分析。實(shí)驗(yàn)結(jié)果表明,本文使用的標(biāo)注方法對(duì)查詢結(jié)果數(shù)據(jù)具有較好的標(biāo)注效果。關(guān)鍵詞DeepWeb數(shù)據(jù)標(biāo)注領(lǐng)域知識(shí)決策樹AbstractInthenetworkenvironment,嬲thefurtherstudyoninformationretrieval,moreandmorepeoplepayattentiontoDe
4、epWebdataintegrationsystem.DeepWebisarelativeconeeptofSurfaceWeb.ItreferstotheWebinformationthatcannotberetrievedbythenormalsearchengine,butgenerateddynamicallyaccordingtothesearchwords.Dataannotation嬲allimportantcomponentofDeepWebdataintegrationsystem,itsmainworkistoannotateth
5、edataextractedfromthesearchresults,andmakethedataidentifiedandOnthebaSisoftheanalysisoftheDeepWebsitesearchresultpagesandthedatastyle,thedissertationintroducestheconceptionoftheresultschema,objectmodeloftheannotationdomainandgivestheformaldescriptionsofthem.Alsothedissertationd
6、escribestheannotationthoughtofthispaper.Thedissertationcategoriesthesearchresultcontentintothreetypes:first,thecontentcontaindomainknowledge;second,thecontentdonotcontaindomainknowledge;third,themixedtype:somecontentcontaindomainknowledgeandothersdonot.Forthesethreetypes,thedis
7、sertationUSeStwobaSicannotationmethods:domainknowledgeannotationanddecisiontreeannotationtoannotatethreetypesseparatelyandtogether.InordertoeliminatetherepeateddatachargingofthesameDeepWebsitetoimprovetheefficiency,onthebasisofthetwobaSicannotationmethods,thedissertationBsesthe
8、modelannotationmethod.ThedissertationalsousestwoaSsist