淺談web信息抽取

ID：21748255

大?。?5.00 KB

頁數(shù)：11頁

時間：2018-10-24

資源描述：

《淺談web信息抽取》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、精品文檔淺談web信息抽取摘要:文章闡述了web信息抽取的定義、抽取過程、Web信息抽取方法的分類，并指明了web信息抽取的應(yīng)用領(lǐng)域和發(fā)展方向。論文關(guān)鍵詞：web信息抽取,自然語言,包裝器,web查詢,抽取對象　　一、什么是web信息抽取　　Web信息抽取是指從Web頁面所包含的無結(jié)構(gòu)、半結(jié)構(gòu)或者結(jié)構(gòu)化的信息中識別用戶感興趣的數(shù)據(jù)，并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更為清晰的格式的Web頁面信息抽取的過程[1]。　　二、Web信息抽取技術(shù)涉及的內(nèi)容　　因特網(wǎng)提供了一個巨大的信息源。這種信息源往往是半結(jié)構(gòu)化的，并且中間夾雜著結(jié)構(gòu)化和自由文本。網(wǎng)上的信息還是動態(tài)的，包含超鏈接，都以不同的形式

2、出現(xiàn)。　　lWeb2016全新精品資料-全新公文范文-全程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔信息抽取的內(nèi)容一般可以分為這樣幾個方面：　　命名實體的抽取、與模板有關(guān)的內(nèi)容信息抽取、各個實體之間關(guān)系的抽取和預(yù)置事件的信息抽取。　　信息抽取的方法主要可以分為以下兩類：一類是基于層次結(jié)構(gòu)的信息抽取歸納方法，另一類是基于概念模型的多記錄信息抽取方法。　　Web信息抽取工作主要包裝器來完成[1]。包裝器是一種軟件過程，這個過程使用已經(jīng)定義好的信息抽取規(guī)則，將網(wǎng)絡(luò)中Web頁面的信息數(shù)據(jù)抽取出來，轉(zhuǎn)換為用特定的格式描述的信息。一個包裝器一般針對某一種數(shù)據(jù)源中的一類頁面。包裝器運(yùn)用規(guī)則執(zhí)行程

3、序?qū)嶋H要抽取的數(shù)據(jù)源進(jìn)行抽取。　　l抽取過程一般包括以下幾個步驟[2]：　　1.將Web網(wǎng)頁進(jìn)行預(yù)處理。預(yù)處理的目的是將半結(jié)構(gòu)化HTML頁面去掉無用的信息以及對不規(guī)則的HTML標(biāo)識進(jìn)行修正，為下一步標(biāo)記信息做準(zhǔn)備。　　2.用一組信息模式描述所需要抽取的信息。通?？梢葬槍δ骋活I(lǐng)域的信息特征預(yù)定義好一系列的信息模式，存放在模式庫中供用戶選用。　　3.對文本進(jìn)行合理的詞法、句法及語義分析，通常包括識別特定的名詞短語和動詞短語。　　4.使用模式匹配方法識別指定的信息模式的各個部分。　　5.進(jìn)行上下文分析和推理，確定信息的最終形式。　　6.2016全新精品資料-全新公文范文-全

4、程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔將結(jié)果輸出成結(jié)構(gòu)化的描述型式以便由網(wǎng)絡(luò)集成系統(tǒng)進(jìn)行查詢分析。　　三、Web信息抽取方法的分類　　把所有網(wǎng)頁都?xì)w入半結(jié)構(gòu)化文本是不恰當(dāng)?shù)?。若能通過識別分隔符或信息點順序等固定的格式信息正確抽取出來，那么該網(wǎng)頁是結(jié)構(gòu)化的。半結(jié)構(gòu)化的網(wǎng)頁則可能包含缺失的屬性，或一個屬性有多個值，或一個屬性有多個變體等例外的情況。若需要用語言學(xué)知識才能正確抽取屬性，則該網(wǎng)頁是非結(jié)構(gòu)化的。　　網(wǎng)頁的結(jié)構(gòu)化程度總是取決于用戶想要抽取的屬性是什么。通常機(jī)器產(chǎn)生的網(wǎng)頁是非常結(jié)構(gòu)化的，手工編寫的則結(jié)構(gòu)化程度差些，當(dāng)然有很多例外。　　按照Web信息抽取對象的結(jié)構(gòu)化程度，大體

5、上可以分為三種類型：　　結(jié)構(gòu)化文本。　　自由文本。　　半結(jié)構(gòu)化文本。　　l根據(jù)Web信息抽取對象劃分，可以分為三種類型[2]：　　1.從自由格式的文本中抽取出所需要的信息內(nèi)容。自由文本的抽取技術(shù)可分為三類:　　a.基于自然語言處理的方式。　　b.基于規(guī)則的方式。　　c.基于統(tǒng)計學(xué)習(xí)的方式。　　2.2016全新精品資料-全新公文范文-全程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔從半結(jié)構(gòu)化的文本中，抽取出所需要的信息內(nèi)容。　　3.從結(jié)構(gòu)化的文本中抽取出所需要的信息內(nèi)容。　　l根據(jù)自動化程度可以分為　　人工方式的信息抽取、半自動方式的信息抽取和全自動方式的信息抽取三大類

6、。　　l根據(jù)現(xiàn)有Web信息抽取系統(tǒng)和模型實現(xiàn)原理的不同，分為以下幾類:　　1.基于歸納學(xué)習(xí)的信息抽取[2]。通過對若干個待抽取實例網(wǎng)頁進(jìn)行結(jié)構(gòu)特征學(xué)習(xí)，歸納出抽取規(guī)則，然后使用抽取規(guī)則自動分析待抽取信息在網(wǎng)頁中的結(jié)構(gòu)特征并實現(xiàn)信息抽取。采用這種原理的典型的系統(tǒng)有STALKER，SOHTMEALY，WIEN。　　2.基于HMM的信息抽取[3][4]。是最近幾年應(yīng)用最廣泛的抽取知識表達(dá)模型。它是一種隨機(jī)的有限狀態(tài)自動機(jī)，由于HMM有成熟的學(xué)習(xí)算法和堅實的統(tǒng)計基礎(chǔ)，所以在信息抽取中是一種成功的模型。　　3.基于特征模式匹配的信息抽取[2]。通過大量學(xué)習(xí)實例，歸納學(xué)習(xí)出待抽取信息的語

7、法結(jié)構(gòu)模式，并根據(jù)這些模式從待抽取網(wǎng)頁中抽取出相匹配的信息，適用于復(fù)雜結(jié)構(gòu)信息的抽取。　　4.2016全新精品資料-全新公文范文-全程指導(dǎo)寫作–獨家原創(chuàng)11/11精品文檔基于網(wǎng)頁結(jié)構(gòu)特征分析的信息抽取[2]。將Web文檔轉(zhuǎn)換成反映HTML文件層次結(jié)構(gòu)的解析樹，通過自動或半自動的方式產(chǎn)生抽取規(guī)則。采用該類技術(shù)的典型系統(tǒng)有LIXTO[5]等。　　5.基于Ontology的Web信息抽取[7][8]。本體的構(gòu)建是這類抽取的基礎(chǔ)與核心，如何構(gòu)造出良好的面向應(yīng)用

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 11



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

淺談web信息抽取

淺談web信息抽取

相關(guān)文章

相關(guān)標(biāo)簽