資源描述:
《deep+web數(shù)據(jù)抽取和語義標注技術研究new》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、江蘇大學碩士學位論文DeepWeb數(shù)據(jù)抽取和語義標注技術研究姓名:楊曉琴申請學位級別:碩士專業(yè):計算機應用技術指導教師:鞠時光20091216江蘇大學碩士學位論文摘要Web數(shù)據(jù)庫根據(jù)用戶提交的請求,將其內(nèi)容以HTML頁面的形式動態(tài)呈現(xiàn)出來,這些信息稱之為DeepWeb資源。而HTML語言的特點是在Web上發(fā)布的,內(nèi)容多樣,形式各異,使得Web上的數(shù)據(jù)處于雜亂無序的狀態(tài),給數(shù)據(jù)集成系統(tǒng)的建立造成了極大的困難。因此,需要通過各種技術手段將網(wǎng)頁中的無結構或者半結構化數(shù)據(jù)抽取出來。同時為了使抽取獲得的數(shù)據(jù)具有更高的使用價值,這些數(shù)據(jù)應該被應用程
2、序所理解,必須為其添加語義注釋。本文重點分析了DeepWeb數(shù)據(jù)抽取和語義標注的已有技術,并在此基礎上分別提出了一種基于模板的數(shù)據(jù)抽取方法和一種基于包裝器的語義標注方法,最后整合上述研究模塊,設計和實現(xiàn)了一個面向求職領域的垂直搜索引擎系統(tǒng)。本文主要研究的內(nèi)容包括:(1)研究如何從一系列同模板生成的網(wǎng)頁中檢測出其背后的模板,并利用模板將嵌入的數(shù)據(jù)自動抽取出來。給出了模板生成問題的形式化描述,提出了一種新穎的模板生成方法,并利用生成的模板從實例網(wǎng)頁中抽取數(shù)據(jù)。與現(xiàn)有方法相比,該方法能適用“列表頁面”和“詳細頁面”兩種類型網(wǎng)頁。通過在多個領域
3、實例站點上實驗,說明新方法在不降低已有方法準確率的情況下能進一步提高抽取的召回率。(2)為了準確且完整地對抽取的數(shù)據(jù)進行語義標注,提出一種基于包裝器的語義標注方法。該方法利用多個標注源進行組合標注,有效解決了單標注源標注率不高問題;同時針對標注不完全問題,提出了利用多個數(shù)據(jù)源的互補關系進行標注;最后生成高效率的標注包裝江蘇大學碩士學位論文器對抽取結果自動標注。實驗結果證明,該方法提高了標注的準確率和效率。(3)設計和實現(xiàn)了一個面向求職領域的垂直搜索引擎系統(tǒng),并將上文提出的技術在該搜索引擎上的應用做了分析。實際應用表明,該系統(tǒng)可以取得較好
4、的效果。關鍵詞:DeepWreb,數(shù)據(jù)抽取,語義標注,垂直搜索,數(shù)據(jù)集成江蘇大學碩士學位論文ABSTRACTAfterreceivingtherequestsubmittedbyuser,webdatabasewillreturnqueryresultsintheformofHTMLpagesdynamically.ThewholeinformationembeddedinthesepagescalledDeepWeb.TheHTMLpagesarepublishedonWebwithvariouscontentanddifferent
5、forms,makingdataonthewebsemi.structuredorevenunstructured.Thesecharacteristicsbringgreatdifficultiestotheestablishmentofthewebintegrationsystems.Therefore,semi—structuredandunstructureddataonthewebneededtobeextractedthroughavarietyoftechnology.Meanwhile,inordertomakethee
6、xtracteddataahighervalue,semanticannotationsmustbeaddedSOthatthesedatacanbeunderstoodbyapplicationprogram.Thispaperanalyzesexistdataextractionandsemanticannotationmethods,thenproposesanewapproachofdataextractionbasedontemplateandanapproachofsemanticannotationbasedonwrapp
7、er.Finally,averticalsearchengineforjobdomainispresentedandaccomplished.Themainworksofthispaperinclude:(1)Theresearchistoautomaticallygeneratetemplatebehindthesetemplate·generatedwebpagesandextractembeddeddata.Thetemplategenerationproblemisformalized.Anoveltemplategenerat
8、ionmethodispresentedandthegeneratedtemplatesareusedtoextractdatafromIII江蘇大學碩士學位論文instancepages.Comparin