基于框架語義標(biāo)注的web信息抽取技術(shù)研究

基于框架語義標(biāo)注的web信息抽取技術(shù)研究

ID:32739826

大?。?.33 MB

頁數(shù):66頁

時(shí)間:2019-02-15

基于框架語義標(biāo)注的web信息抽取技術(shù)研究_第1頁
基于框架語義標(biāo)注的web信息抽取技術(shù)研究_第2頁
基于框架語義標(biāo)注的web信息抽取技術(shù)研究_第3頁
基于框架語義標(biāo)注的web信息抽取技術(shù)研究_第4頁
基于框架語義標(biāo)注的web信息抽取技術(shù)研究_第5頁
資源描述:

《基于框架語義標(biāo)注的web信息抽取技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、聲明蘆剮本人鄭重聲明:所呈交的學(xué)位論文,是本人在指導(dǎo)教師的指導(dǎo)下,獨(dú)立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的科研成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。論文作者簽名:量必~一目期:2壘壑j生么——一關(guān)于學(xué)位論文使用權(quán)的說明本人完全了解太原理工大學(xué)有關(guān)保管、使用學(xué)位論文的規(guī)定,其中包括:①學(xué)校有權(quán)保管、并向有關(guān)部門送交學(xué)位論文的原件與復(fù)印件;②學(xué)??梢圆捎糜坝?、縮印或其它復(fù)制手段復(fù)制并保存學(xué)位論文;③學(xué)??稍试S學(xué)位論文被查閱或借閱;④學(xué)??梢詫W(xué)

2、術(shù)交流為醬的,復(fù)制贈(zèng)送和交換學(xué)位論文;⑤學(xué)校可以公布學(xué)位論文的全部或部分內(nèi)容(保密學(xué)位論文在解密后遵守此規(guī)定)。簽:名:魚逝年一啉盈也L導(dǎo)師繇華蘭塑。隰妒忠。毒.專’太原理工大學(xué)碩士研究生學(xué)位論文1.1問題提出的背景第一章引言隨著Internct的快速發(fā)展,Intcrnct上的信息資源正以驚人的速度增長(zhǎng),越來越多的人們通過Internct發(fā)布信息、查找信息。web已經(jīng)發(fā)展成一個(gè)全球的、巨大的、分布和共享的信息倉庫。然而,這些信息資源無論是從物理上還是邏輯上多是以散落無序的狀態(tài)存在于Intcrnet上,信息的獲取存在諸多問題:首先,用戶難以定位所需信息的網(wǎng)

3、絡(luò)位置?,F(xiàn)有的搜索引擎只能根據(jù)用戶提交的關(guān)鍵字返回一組URL,為了獲得所需的信息,用戶必須逐一瀏覽對(duì)應(yīng)的網(wǎng)頁,采用人工定位方法獲得最終信息。顯然,現(xiàn)有的搜索引擎本身難以直接定位到用戶所需要的信息,更談上不上為這些信息增加語義。并且由于對(duì)查詢關(guān)鍵詞的依賴導(dǎo)致其準(zhǔn)確率的低下。此外,這種基于網(wǎng)絡(luò)爬蟲的方式完全遺漏了大量隱藏在站點(diǎn)后臺(tái)數(shù)據(jù)庫中的信息資源。其次,隨著人們對(duì)信息的需求日益增長(zhǎng),用戶所需的信息往往須從多個(gè)不同的信息源獲得,用戶不得不以人工的方式一一定位這些信息源,逐個(gè)查詢,再將查詢結(jié)果以一定的方式合并、組織,過程繁瑣且效率不高。.再次,包含所需的信息的

4、網(wǎng)頁中充斥著大量的廣告和無關(guān)鏈接,有用信息與無用信息混雜在一起,增加了信息獲取的難度。因此,目前的信息獲取方式難以滿足用戶日益增長(zhǎng)的信息需求。為了應(yīng)對(duì)信息爆炸帶來的嚴(yán)重挑戰(zhàn);為了幫助人們?cè)诤A啃畔⒃粗醒杆僬业秸嬲枰男畔ⅲ粸榱俗寫?yīng)用程序能直接利用網(wǎng)上的資源,都需要一種技術(shù)能自動(dòng)從這些數(shù)據(jù)中提取出有用的信息,信息抽取技術(shù)正是在這種背景下產(chǎn)生的。1.2信息抽取研究的發(fā)展歷史.信息抽取(InformationExtraction,縮寫為IE)技術(shù)是一種面向具體任務(wù)的實(shí)用的文檔理解技術(shù)。與復(fù)雜的自然語言理解技術(shù)不同,IE技術(shù)通常采用淺層的文檔分折技術(shù),提取出設(shè)

5、計(jì)者關(guān)注的特定主題或特定領(lǐng)域的信息。該技術(shù)適用于具有特定主題及相對(duì)確定的信息結(jié)構(gòu)的文檔如廣告、新聞、數(shù)據(jù)庫自然語言查詢、特定領(lǐng)域的文本等等。信息抽取是一個(gè)以自由文本作為輸入,產(chǎn)生結(jié)構(gòu)化的輸出數(shù)據(jù)的過程。這些數(shù)據(jù)可l太原理工大學(xué)碩士研究生學(xué)位論文直接向用戶顯示,也可作為自由文本信息檢索的索引,或存儲(chǔ)到數(shù)據(jù)庫、電子表格中,以便于以后的進(jìn)一步分析利用。從廣義上講,信息抽取的處理對(duì)象可以是文本、圖像、語音、視頻等多種形式的文件。但隨著文本信息抽取的強(qiáng)勢(shì)發(fā)展,特別是在美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)所資助的消息理解會(huì)議(MUC)以及后來由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究(

6、NIST)組織的自動(dòng)內(nèi)容抽取(ACE,AutomaticContentExtraction)評(píng)測(cè)對(duì)不同文本信息抽取系統(tǒng)組織統(tǒng)一評(píng)估后,信息抽取已被用來專指文本信息的抽取。信息抽取的目標(biāo)是從HTML網(wǎng)頁或文本中抽取出特定的事實(shí)信息(FactualInformation)。比如,從書店的貨品欄記錄中抽取出書名、類別、價(jià)格、作者、出版社等;從圖書的內(nèi)容簡(jiǎn)介中抽取出圖書中具體包含的內(nèi)容、作者背景信息、圖書的評(píng)價(jià)、用途等等信息。通常,被抽取出的信息要以結(jié)構(gòu)化形式描述,可以直接存入數(shù)據(jù)庫,供用戶●查詢以及進(jìn)一步進(jìn)行集成分析。Web信息抽取,就是將web作為信息源的一

7、類信息抽取。它的主要任務(wù)就是如何將分散在Intemet上半結(jié)構(gòu)化的HTML上的信息或非結(jié)構(gòu)化的頁面中隱含信息提取出來,并以更為結(jié)構(gòu)化、語義更為清晰的形式表示,為用戶在web查詢數(shù)據(jù),應(yīng)用程序直接利用web中的數(shù)據(jù)提供便利。從自由文本中獲取結(jié)構(gòu)化的信息的研究最早開始于20世紀(jì)60年代中期,這被看作是信息抽取技術(shù)的初始研究,它以兩個(gè)長(zhǎng)期的、研究性的自然語言處理項(xiàng)目為代表。美國(guó)紐約大學(xué)開展LinguisticString的項(xiàng)目開始于60年代中期并一直延續(xù)到90年代。該項(xiàng)目的主要研究?jī)?nèi)容是建立一個(gè)大規(guī)模的英語計(jì)算語法,與之相關(guān)的應(yīng)用是從醫(yī)療領(lǐng)域的光報(bào)告和醫(yī)院出院

8、記錄中抽取信息格式,這種信息格式實(shí)際上就是現(xiàn)在所說的模板。另一個(gè)相關(guān)的長(zhǎng)期項(xiàng)目是

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。