資源描述:
《特定領域deep+web數據抽取和語義標注的研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、特定頒域的DeepWeb數據抽取L-iN3(標注研究中文摘要特定領域的DeepWeb數據抽取與語義標注研究中文摘要隨著Intemet技術的飛速發(fā)展,隱藏在Web后臺數據庫中的信息資源因為其數據量大、結構完整受到了廣泛關注,這些信息資源通常是由用戶在Web查詢頁面提交查詢請求后,以HTML頁面為中介展示給用戶的。學者們通常將這些信息資源稱之為DeepWeb資源。為了最大程度的利用這些DeepW
2、eb資源,需要通過各種技術手段將網頁中的無結構或者半結構化信息抽取出來。同時為了使抽取到的信息具有更高的使用價值,應該對這些數據進行語義標注,使其能夠被機器
3、所理解。本文對特定領域的DeepWeb的數據抽取與語義標注進行了研究,將節(jié)點的類型信息引入到數據記錄的抽取中來,并基于本體實現(xiàn)了語義標注,最后結合自身參與的項目設計了一個原型系統(tǒng)。本文的研究工作主要包括以下幾點:1)簡要概述了信息抽取的發(fā)展歷史、評價標準和所涉及的相關技術,并對現(xiàn)有的信息抽取方法進行了深入的分析。2)結合DeepWeb結果頁面自身的特點,利用頁面布局的視覺特征和內容特征,提出了一種利用標簽過濾器、視覺特征過濾器、內容規(guī)則過濾器的頁面凈化方法。實驗結果表明,該方法可以有效提高后續(xù)數據抽取的效率與精度。3)提出一種基于節(jié)點類型的數據記
4、錄抽取方法,該方法首先將HTML標簽節(jié)點分為塊、樣式、文本、圖片四種類型,并對每一種類型賦予一個權值,其次根據不同的節(jié)點類型來計算結果頁面數據記錄中各屬性節(jié)點的熵值,最后通過此熵值來確定代表數據記錄的節(jié)點,實現(xiàn)數據記錄節(jié)點的抽取。與其他方法相比,該方法具有更高的效率。4)將領域本體作為Web數據庫所遵循的全局模式,通過核密度、K.L距離等方法來實現(xiàn)本體與模式間的映射,從而實現(xiàn)數據的語義標注功能。實驗結果表明該方法具有一定的優(yōu)越性。5)在上述研究的基礎上設計了一個面向生物醫(yī)藥領域的信息集成平臺。關鍵詞:DeepWeb,信息集成,網頁凈化,數據抽取,
5、語義標注作者:楊舟指導老師:崔志明(教授)StudyonDataExtractionan’1SemanticAnnotationforspecificfieldDeepWebAbstractWitlltherapiddevelopmentofIntemettechnology,informationresourceswhicharehiddeninwebdatabaseshavereceivedextensiveattentionbecauseofitslargeamountofdataandstructureintegrity.Theseinf
6、ormationresourcesaredisplayedtousersintheformofHTMLpagesafterusershavesubmittedsearchqueriesonwebquerypage.AndresearchersusuallycalltheseinformationresourcesDeepWeb.TomaximizetheuseoftheseDeepWebresources,thosesemi-structuredandunstructureddataonthewebpageneedtobeextractedthr
7、oughavarietyoftechnicalmeans.Meanwhile,inordertomaketheextracteddatapossessahigherusevalue,semanticannotationsmustbeaddedtothesedataSOthattheycanbeunderstoodbymachines.ThispaperstudiesthetechnologyofinformationextractionanddataannotationinDeepWebforspecificfield.Atfirst,leadt
8、ypeinformationofnodesintoextractionofdatarecordsandthenachievethesemanticannotationbasedonontology.Finally,aprototypesystemisdesignedcombined、^五thmyprojectexperience.Themainresearchworkofthispaperinclude:1)Thispapergivesapresentationaboutthedevelopmenthistory、evaluationcriter
9、iaandrelatedtechnologiesofWebinformationextractioninbriefandanalyses