deep web數據集成系統(tǒng)中數據標注研究

deep web數據集成系統(tǒng)中數據標注研究

ID:35121743

大小:1.79 MB

頁數:48頁

時間:2019-03-19

deep web數據集成系統(tǒng)中數據標注研究_第1頁
deep web數據集成系統(tǒng)中數據標注研究_第2頁
deep web數據集成系統(tǒng)中數據標注研究_第3頁
deep web數據集成系統(tǒng)中數據標注研究_第4頁
deep web數據集成系統(tǒng)中數據標注研究_第5頁
資源描述:

《deep web數據集成系統(tǒng)中數據標注研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、河北大學碩士學位論文DeepWeb數據集成系統(tǒng)中數據標注研究姓名:常勇申請學位級別:碩士專業(yè):計算機應用技術指導教師:袁方20090501摘要摘要隨著人們對網絡環(huán)境下信息檢索研究的不斷深入,DeepWeb數據集成系統(tǒng)的相關研究越來越多地受JUT人們的關注。DeepWcb是與SurfaceWeb相對應的概念,它是指那些不能被主流的搜索引擎搜索到、動態(tài)地根據用戶提交的關鍵詞所生成的Web數據信息。數據標注作為DeepWeb數據集成系統(tǒng)中一個重要的組成部分,它的主要工作是對抽取的查詢返回結果數據進行標注,使其成為有語義信息的數據,使得計算機可識別、可處理。

2、本文在分析TDeepWeb網站查詢結果頁面及其數據表現形式的基礎上,介紹了結果模式、標注領域的對象模型并給出了它們的形式化表示,同時給出了數據標注思想的描述。本文將DeepWeb網站查詢返回結果內容分為三種類型:(1)內容中含有領域知識;(2)內容中不含有領域知識;(3)部分內容含有領域知識,其余內容不含有領域知識的混合類型。針對這三種類型使用了兩種基本標注方法:領域知識標注方法和決策樹標注方法,用它們單獨以及聯(lián)合標注這三種類型。為了避免對--DeepWeb網站查詢結果數據的反復處理,在前面兩種基本標注方法的基礎上,使用了模板標注方法。同時使用了兩種

3、輔助標注方法:實體標注方法和啟發(fā)式規(guī)則標注方法。這兩種方法主要是用來檢驗和修正其他標注方法的標注結果。本文對各種標注方法采用的主要信息做了說明,對各種標注方法的模型做了介紹并給出了形式化表示,對各種標注方法處理中遇到的相關問題做了具體分析。實驗結果表明,本文使用的標注方法對查詢結果數據具有較好的標注效果。關鍵詞DeepWeb數據標注領域知識決策樹AbstractInthenetworkenvironment,嬲thefurtherstudyoninformationretrieval,moreandmorepeoplepayattentiontoDe

4、epWebdataintegrationsystem.DeepWebisarelativeconeeptofSurfaceWeb.ItreferstotheWebinformationthatcannotberetrievedbythenormalsearchengine,butgenerateddynamicallyaccordingtothesearchwords.Dataannotation嬲allimportantcomponentofDeepWebdataintegrationsystem,itsmainworkistoannotateth

5、edataextractedfromthesearchresults,andmakethedataidentifiedandOnthebaSisoftheanalysisoftheDeepWebsitesearchresultpagesandthedatastyle,thedissertationintroducestheconceptionoftheresultschema,objectmodeloftheannotationdomainandgivestheformaldescriptionsofthem.Alsothedissertationd

6、escribestheannotationthoughtofthispaper.Thedissertationcategoriesthesearchresultcontentintothreetypes:first,thecontentcontaindomainknowledge;second,thecontentdonotcontaindomainknowledge;third,themixedtype:somecontentcontaindomainknowledgeandothersdonot.Forthesethreetypes,thedis

7、sertationUSeStwobaSicannotationmethods:domainknowledgeannotationanddecisiontreeannotationtoannotatethreetypesseparatelyandtogether.InordertoeliminatetherepeateddatachargingofthesameDeepWebsitetoimprovetheefficiency,onthebasisofthetwobaSicannotationmethods,thedissertationBsesthe

8、modelannotationmethod.ThedissertationalsousestwoaSsist

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。