淺談web信息抽取

淺談web信息抽取

ID:21748255

大?。?5.00 KB

頁數(shù):11頁

時間:2018-10-24

淺談web信息抽取_第1頁
淺談web信息抽取_第2頁
淺談web信息抽取_第3頁
淺談web信息抽取_第4頁
淺談web信息抽取_第5頁
資源描述:

《淺談web信息抽取》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫

1、精品文檔淺談web信息抽取摘要:文章闡述了web信息抽取的定義、抽取過程、Web信息抽取方法的分類,并指明了web信息抽取的應(yīng)用領(lǐng)域和發(fā)展方向。論文關(guān)鍵詞:web信息抽取,自然語言,包裝器,web查詢,抽取對象  一、什么是web信息抽取  Web信息抽取是指從Web頁面所包含的無結(jié)構(gòu)、半結(jié)構(gòu)或者結(jié)構(gòu)化的信息中識別用戶感興趣的數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更為清晰的格式的Web頁面信息抽取的過程[1]。  二、Web信息抽取技術(shù)涉及的內(nèi)容  因特網(wǎng)提供了一個巨大的信息源。這種信息源往往是半結(jié)構(gòu)化的,并且中間夾雜著結(jié)構(gòu)化和自由文本。網(wǎng)上的信息還是動態(tài)的,包含超鏈接,都以不同的形式

2、出現(xiàn)。  lWeb2016全新精品資料-全新公文范文-全程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔信息抽取的內(nèi)容一般可以分為這樣幾個方面:  命名實體的抽取、與模板有關(guān)的內(nèi)容信息抽取、各個實體之間關(guān)系的抽取和預(yù)置事件的信息抽取。  信息抽取的方法主要可以分為以下兩類:一類是基于層次結(jié)構(gòu)的信息抽取歸納方法,另一類是基于概念模型的多記錄信息抽取方法。  Web信息抽取工作主要包裝器來完成[1]。包裝器是一種軟件過程,這個過程使用已經(jīng)定義好的信息抽取規(guī)則,將網(wǎng)絡(luò)中Web頁面的信息數(shù)據(jù)抽取出來,轉(zhuǎn)換為用特定的格式描述的信息。一個包裝器一般針對某一種數(shù)據(jù)源中的一類頁面。包裝器運(yùn)用規(guī)則執(zhí)行程

3、序?qū)嶋H要抽取的數(shù)據(jù)源進(jìn)行抽取。  l抽取過程一般包括以下幾個步驟[2]:  1.將Web網(wǎng)頁進(jìn)行預(yù)處理。預(yù)處理的目的是將半結(jié)構(gòu)化HTML頁面去掉無用的信息以及對不規(guī)則的HTML標(biāo)識進(jìn)行修正,為下一步標(biāo)記信息做準(zhǔn)備。  2.用一組信息模式描述所需要抽取的信息。通??梢葬槍δ骋活I(lǐng)域的信息特征預(yù)定義好一系列的信息模式,存放在模式庫中供用戶選用。  3.對文本進(jìn)行合理的詞法、句法及語義分析,通常包括識別特定的名詞短語和動詞短語。  4.使用模式匹配方法識別指定的信息模式的各個部分。  5.進(jìn)行上下文分析和推理,確定信息的最終形式。  6.2016全新精品資料-全新公文范文-全

4、程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔將結(jié)果輸出成結(jié)構(gòu)化的描述型式以便由網(wǎng)絡(luò)集成系統(tǒng)進(jìn)行查詢分析。  三、Web信息抽取方法的分類  把所有網(wǎng)頁都?xì)w入半結(jié)構(gòu)化文本是不恰當(dāng)?shù)?。若能通過識別分隔符或信息點順序等固定的格式信息正確抽取出來,那么該網(wǎng)頁是結(jié)構(gòu)化的。半結(jié)構(gòu)化的網(wǎng)頁則可能包含缺失的屬性,或一個屬性有多個值,或一個屬性有多個變體等例外的情況。若需要用語言學(xué)知識才能正確抽取屬性,則該網(wǎng)頁是非結(jié)構(gòu)化的。  網(wǎng)頁的結(jié)構(gòu)化程度總是取決于用戶想要抽取的屬性是什么。通常機(jī)器產(chǎn)生的網(wǎng)頁是非常結(jié)構(gòu)化的,手工編寫的則結(jié)構(gòu)化程度差些,當(dāng)然有很多例外。  按照Web信息抽取對象的結(jié)構(gòu)化程度,大體

5、上可以分為三種類型:  結(jié)構(gòu)化文本。  自由文本。  半結(jié)構(gòu)化文本。  l根據(jù)Web信息抽取對象劃分,可以分為三種類型[2]:  1.從自由格式的文本中抽取出所需要的信息內(nèi)容。自由文本的抽取技術(shù)可分為三類:  a.基于自然語言處理的方式。  b.基于規(guī)則的方式。  c.基于統(tǒng)計學(xué)習(xí)的方式。  2.2016全新精品資料-全新公文范文-全程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔從半結(jié)構(gòu)化的文本中,抽取出所需要的信息內(nèi)容。  3.從結(jié)構(gòu)化的文本中抽取出所需要的信息內(nèi)容。  l根據(jù)自動化程度可以分為  人工方式的信息抽取、半自動方式的信息抽取和全自動方式的信息抽取三大類

6、。  l根據(jù)現(xiàn)有Web信息抽取系統(tǒng)和模型實現(xiàn)原理的不同,分為以下幾類:  1.基于歸納學(xué)習(xí)的信息抽取[2]。通過對若干個待抽取實例網(wǎng)頁進(jìn)行結(jié)構(gòu)特征學(xué)習(xí),歸納出抽取規(guī)則,然后使用抽取規(guī)則自動分析待抽取信息在網(wǎng)頁中的結(jié)構(gòu)特征并實現(xiàn)信息抽取。采用這種原理的典型的系統(tǒng)有STALKER,SOHTMEALY,WIEN。  2.基于HMM的信息抽取[3][4]。是最近幾年應(yīng)用最廣泛的抽取知識表達(dá)模型。它是一種隨機(jī)的有限狀態(tài)自動機(jī),由于HMM有成熟的學(xué)習(xí)算法和堅實的統(tǒng)計基礎(chǔ),所以在信息抽取中是一種成功的模型。  3.基于特征模式匹配的信息抽取[2]。通過大量學(xué)習(xí)實例,歸納學(xué)習(xí)出待抽取信息的語

7、法結(jié)構(gòu)模式,并根據(jù)這些模式從待抽取網(wǎng)頁中抽取出相匹配的信息,適用于復(fù)雜結(jié)構(gòu)信息的抽取。  4.2016全新精品資料-全新公文范文-全程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔基于網(wǎng)頁結(jié)構(gòu)特征分析的信息抽取[2]。將Web文檔轉(zhuǎn)換成反映HTML文件層次結(jié)構(gòu)的解析樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則。采用該類技術(shù)的典型系統(tǒng)有LIXTO[5]等。  5.基于Ontology的Web信息抽取[7][8]。本體的構(gòu)建是這類抽取的基礎(chǔ)與核心,如何構(gòu)造出良好的面向應(yīng)用

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。