資源描述:
《deep web數據集成系統(tǒng)中數據標注研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、河北大學碩士學位論文DeepWeb數據集成系統(tǒng)中數據標注研究姓名:常勇申請學位級別:碩士專業(yè):計算機應用技術指導教師:袁方20090501摘要摘要隨著人們對網絡環(huán)境下信息檢索研究的不斷深入,DeepWeb數據集成系統(tǒng)的相關研究越來越多地受JUT人們的關注。DeepWcb是與SurfaceWeb相對應的概念,它是指那些不能被主流的搜索引擎搜索到、動態(tài)地根據用戶提交的關鍵詞所生成的Web數據信息。數據標注作為DeepWeb數據集成系統(tǒng)中一個重要的組成部分,它的主要工作是對抽取的查詢返回結果數據進行標注,使其成為有語義信息的數據,使得計算機可識別、可處理。
2、本文在分析TDeepWeb網站查詢結果頁面及其數據表現形式的基礎上,介紹了結果模式、標注領域的對象模型并給出了它們的形式化表示,同時給出了數據標注思想的描述。本文將DeepWeb網站查詢返回結果內容分為三種類型:(1)內容中含有領域知識;(2)內容中不含有領域知識;(3)部分內容含有領域知識,其余內容不含有領域知識的混合類型。針對這三種類型使用了兩種基本標注方法:領域知識標注方法和決策樹標注方法,用它們單獨以及聯(lián)合標注這三種類型。為了避免對--DeepWeb網站查詢結果數據的反復處理,在前面兩種基本標注方法的基礎上,使用了模板標注方法。同時使用了兩種
3、輔助標注方法:實體標注方法和啟發(fā)式規(guī)則標注方法。這兩種方法主要是用來檢驗和修正其他標注方法的標注結果。本文對各種標注方法采用的主要信息做了說明,對各種標注方法的模型做了介紹并給出了形式化表示,對各種標注方法處理中遇到的相關問題做了具體分析。實驗結果表明,本文使用的標注方法對查詢結果數據具有較好的標注效果。關鍵詞DeepWeb數據標注領域知識決策樹AbstractInthenetworkenvironment,嬲thefurtherstudyoninformationretrieval,moreandmorepeoplepayattentiontoDe
4、epWebdataintegrationsystem.DeepWebisarelativeconeeptofSurfaceWeb.ItreferstotheWebinformationthatcannotberetrievedbythenormalsearchengine,butgenerateddynamicallyaccordingtothesearchwords.Dataannotation嬲allimportantcomponentofDeepWebdataintegrationsystem,itsmainworkistoannotateth
5、edataextractedfromthesearchresults,andmakethedataidentifiedandOnthebaSisoftheanalysisoftheDeepWebsitesearchresultpagesandthedatastyle,thedissertationintroducestheconceptionoftheresultschema,objectmodeloftheannotationdomainandgivestheformaldescriptionsofthem.Alsothedissertationd
6、escribestheannotationthoughtofthispaper.Thedissertationcategoriesthesearchresultcontentintothreetypes:first,thecontentcontaindomainknowledge;second,thecontentdonotcontaindomainknowledge;third,themixedtype:somecontentcontaindomainknowledgeandothersdonot.Forthesethreetypes,thedis
7、sertationUSeStwobaSicannotationmethods:domainknowledgeannotationanddecisiontreeannotationtoannotatethreetypesseparatelyandtogether.InordertoeliminatetherepeateddatachargingofthesameDeepWebsitetoimprovetheefficiency,onthebasisofthetwobaSicannotationmethods,thedissertationBsesthe
8、modelannotationmethod.ThedissertationalsousestwoaSsist