資源描述:
《淺談web信息抽取》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、精品文檔淺談web信息抽取摘要:文章闡述了web信息抽取的定義、抽取過程、Web信息抽取方法的分類,并指明了web信息抽取的應(yīng)用領(lǐng)域和發(fā)展方向。論文關(guān)鍵詞:web信息抽取,自然語言,包裝器,web查詢,抽取對象 一、什么是web信息抽取 Web信息抽取是指從Web頁面所包含的無結(jié)構(gòu)、半結(jié)構(gòu)或者結(jié)構(gòu)化的信息中識別用戶感興趣的數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更為清晰的格式的Web頁面信息抽取的過程[1]。 二、Web信息抽取技術(shù)涉及的內(nèi)容 因特網(wǎng)提供了一個巨大的信息源。這種信息源往往是半結(jié)構(gòu)化的,并且中間夾雜著結(jié)構(gòu)化和自由文本。網(wǎng)上的信息還是動態(tài)的,包含超鏈接,都以不同的形式
2、出現(xiàn)。 lWeb2016全新精品資料-全新公文范文-全程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔信息抽取的內(nèi)容一般可以分為這樣幾個方面: 命名實體的抽取、與模板有關(guān)的內(nèi)容信息抽取、各個實體之間關(guān)系的抽取和預(yù)置事件的信息抽取。 信息抽取的方法主要可以分為以下兩類:一類是基于層次結(jié)構(gòu)的信息抽取歸納方法,另一類是基于概念模型的多記錄信息抽取方法。 Web信息抽取工作主要包裝器來完成[1]。包裝器是一種軟件過程,這個過程使用已經(jīng)定義好的信息抽取規(guī)則,將網(wǎng)絡(luò)中Web頁面的信息數(shù)據(jù)抽取出來,轉(zhuǎn)換為用特定的格式描述的信息。一個包裝器一般針對某一種數(shù)據(jù)源中的一類頁面。包裝器運(yùn)用規(guī)則執(zhí)行程
3、序?qū)嶋H要抽取的數(shù)據(jù)源進(jìn)行抽取。 l抽取過程一般包括以下幾個步驟[2]: 1.將Web網(wǎng)頁進(jìn)行預(yù)處理。預(yù)處理的目的是將半結(jié)構(gòu)化HTML頁面去掉無用的信息以及對不規(guī)則的HTML標(biāo)識進(jìn)行修正,為下一步標(biāo)記信息做準(zhǔn)備。 2.用一組信息模式描述所需要抽取的信息。通??梢葬槍δ骋活I(lǐng)域的信息特征預(yù)定義好一系列的信息模式,存放在模式庫中供用戶選用。 3.對文本進(jìn)行合理的詞法、句法及語義分析,通常包括識別特定的名詞短語和動詞短語。 4.使用模式匹配方法識別指定的信息模式的各個部分。 5.進(jìn)行上下文分析和推理,確定信息的最終形式。 6.2016全新精品資料-全新公文范文-全
4、程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔將結(jié)果輸出成結(jié)構(gòu)化的描述型式以便由網(wǎng)絡(luò)集成系統(tǒng)進(jìn)行查詢分析。 三、Web信息抽取方法的分類 把所有網(wǎng)頁都?xì)w入半結(jié)構(gòu)化文本是不恰當(dāng)?shù)?。若能通過識別分隔符或信息點順序等固定的格式信息正確抽取出來,那么該網(wǎng)頁是結(jié)構(gòu)化的。半結(jié)構(gòu)化的網(wǎng)頁則可能包含缺失的屬性,或一個屬性有多個值,或一個屬性有多個變體等例外的情況。若需要用語言學(xué)知識才能正確抽取屬性,則該網(wǎng)頁是非結(jié)構(gòu)化的。 網(wǎng)頁的結(jié)構(gòu)化程度總是取決于用戶想要抽取的屬性是什么。通常機(jī)器產(chǎn)生的網(wǎng)頁是非常結(jié)構(gòu)化的,手工編寫的則結(jié)構(gòu)化程度差些,當(dāng)然有很多例外。 按照Web信息抽取對象的結(jié)構(gòu)化程度,大體
5、上可以分為三種類型: 結(jié)構(gòu)化文本。 自由文本。 半結(jié)構(gòu)化文本。 l根據(jù)Web信息抽取對象劃分,可以分為三種類型[2]: 1.從自由格式的文本中抽取出所需要的信息內(nèi)容。自由文本的抽取技術(shù)可分為三類: a.基于自然語言處理的方式。 b.基于規(guī)則的方式。 c.基于統(tǒng)計學(xué)習(xí)的方式。 2.2016全新精品資料-全新公文范文-全程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔從半結(jié)構(gòu)化的文本中,抽取出所需要的信息內(nèi)容。 3.從結(jié)構(gòu)化的文本中抽取出所需要的信息內(nèi)容。 l根據(jù)自動化程度可以分為 人工方式的信息抽取、半自動方式的信息抽取和全自動方式的信息抽取三大類
6、。 l根據(jù)現(xiàn)有Web信息抽取系統(tǒng)和模型實現(xiàn)原理的不同,分為以下幾類: 1.基于歸納學(xué)習(xí)的信息抽取[2]。通過對若干個待抽取實例網(wǎng)頁進(jìn)行結(jié)構(gòu)特征學(xué)習(xí),歸納出抽取規(guī)則,然后使用抽取規(guī)則自動分析待抽取信息在網(wǎng)頁中的結(jié)構(gòu)特征并實現(xiàn)信息抽取。采用這種原理的典型的系統(tǒng)有STALKER,SOHTMEALY,WIEN。 2.基于HMM的信息抽取[3][4]。是最近幾年應(yīng)用最廣泛的抽取知識表達(dá)模型。它是一種隨機(jī)的有限狀態(tài)自動機(jī),由于HMM有成熟的學(xué)習(xí)算法和堅實的統(tǒng)計基礎(chǔ),所以在信息抽取中是一種成功的模型。 3.基于特征模式匹配的信息抽取[2]。通過大量學(xué)習(xí)實例,歸納學(xué)習(xí)出待抽取信息的語
7、法結(jié)構(gòu)模式,并根據(jù)這些模式從待抽取網(wǎng)頁中抽取出相匹配的信息,適用于復(fù)雜結(jié)構(gòu)信息的抽取。 4.2016全新精品資料-全新公文范文-全程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔基于網(wǎng)頁結(jié)構(gòu)特征分析的信息抽取[2]。將Web文檔轉(zhuǎn)換成反映HTML文件層次結(jié)構(gòu)的解析樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則。采用該類技術(shù)的典型系統(tǒng)有LIXTO[5]等。 5.基于Ontology的Web信息抽取[7][8]。本體的構(gòu)建是這類抽取的基礎(chǔ)與核心,如何構(gòu)造出良好的面向應(yīng)用