基于框架語義標(biāo)注的web信息抽取技術(shù)研究

ID：32739826

大?。?.33 MB

頁數(shù)：66頁

時(shí)間：2019-02-15

資源描述：

《基于框架語義標(biāo)注的web信息抽取技術(shù)研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、聲明蘆剮本人鄭重聲明：所呈交的學(xué)位論文，是本人在指導(dǎo)教師的指導(dǎo)下，獨(dú)立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外，本論文不包含其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的科研成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體，均已在文中以明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。論文作者簽名：量必～一目期：2壘壑j生么——一關(guān)于學(xué)位論文使用權(quán)的說明本人完全了解太原理工大學(xué)有關(guān)保管、使用學(xué)位論文的規(guī)定，其中包括：①學(xué)校有權(quán)保管、并向有關(guān)部門送交學(xué)位論文的原件與復(fù)印件；②學(xué)?？梢圆捎糜坝?、縮印或其它復(fù)制手段復(fù)制并保存學(xué)位論文；③學(xué)?？稍试S學(xué)位論文被查閱或借閱；④學(xué)?？梢詫W(xué)

2、術(shù)交流為醬的，復(fù)制贈(zèng)送和交換學(xué)位論文；⑤學(xué)校可以公布學(xué)位論文的全部或部分內(nèi)容(保密學(xué)位論文在解密后遵守此規(guī)定)。簽：名：魚逝年一啉盈也L導(dǎo)師繇華蘭塑。隰妒忠。毒．專’太原理工大學(xué)碩士研究生學(xué)位論文1．1問題提出的背景第一章引言隨著Internct的快速發(fā)展，Intcrnct上的信息資源正以驚人的速度增長(zhǎng)，越來越多的人們通過Internct發(fā)布信息、查找信息。web已經(jīng)發(fā)展成一個(gè)全球的、巨大的、分布和共享的信息倉庫。然而，這些信息資源無論是從物理上還是邏輯上多是以散落無序的狀態(tài)存在于Intcrnet上，信息的獲取存在諸多問題：首先，用戶難以定位所需信息的網(wǎng)

3、絡(luò)位置?，F(xiàn)有的搜索引擎只能根據(jù)用戶提交的關(guān)鍵字返回一組URL，為了獲得所需的信息，用戶必須逐一瀏覽對(duì)應(yīng)的網(wǎng)頁，采用人工定位方法獲得最終信息。顯然，現(xiàn)有的搜索引擎本身難以直接定位到用戶所需要的信息，更談上不上為這些信息增加語義。并且由于對(duì)查詢關(guān)鍵詞的依賴導(dǎo)致其準(zhǔn)確率的低下。此外，這種基于網(wǎng)絡(luò)爬蟲的方式完全遺漏了大量隱藏在站點(diǎn)后臺(tái)數(shù)據(jù)庫中的信息資源。其次，隨著人們對(duì)信息的需求日益增長(zhǎng)，用戶所需的信息往往須從多個(gè)不同的信息源獲得，用戶不得不以人工的方式一一定位這些信息源，逐個(gè)查詢，再將查詢結(jié)果以一定的方式合并、組織，過程繁瑣且效率不高。．再次，包含所需的信息的

4、網(wǎng)頁中充斥著大量的廣告和無關(guān)鏈接，有用信息與無用信息混雜在一起，增加了信息獲取的難度。因此，目前的信息獲取方式難以滿足用戶日益增長(zhǎng)的信息需求。為了應(yīng)對(duì)信息爆炸帶來的嚴(yán)重挑戰(zhàn)；為了幫助人們?cè)诤Ａ啃畔⒃粗醒杆僬业秸嬲枰男畔ⅲ粸榱俗寫?yīng)用程序能直接利用網(wǎng)上的資源，都需要一種技術(shù)能自動(dòng)從這些數(shù)據(jù)中提取出有用的信息，信息抽取技術(shù)正是在這種背景下產(chǎn)生的。1．2信息抽取研究的發(fā)展歷史．信息抽取(InformationExtraction，縮寫為IE)技術(shù)是一種面向具體任務(wù)的實(shí)用的文檔理解技術(shù)。與復(fù)雜的自然語言理解技術(shù)不同，IE技術(shù)通常采用淺層的文檔分折技術(shù)，提取出設(shè)

5、計(jì)者關(guān)注的特定主題或特定領(lǐng)域的信息。該技術(shù)適用于具有特定主題及相對(duì)確定的信息結(jié)構(gòu)的文檔如廣告、新聞、數(shù)據(jù)庫自然語言查詢、特定領(lǐng)域的文本等等。信息抽取是一個(gè)以自由文本作為輸入，產(chǎn)生結(jié)構(gòu)化的輸出數(shù)據(jù)的過程。這些數(shù)據(jù)可l太原理工大學(xué)碩士研究生學(xué)位論文直接向用戶顯示，也可作為自由文本信息檢索的索引，或存儲(chǔ)到數(shù)據(jù)庫、電子表格中，以便于以后的進(jìn)一步分析利用。從廣義上講，信息抽取的處理對(duì)象可以是文本、圖像、語音、視頻等多種形式的文件。但隨著文本信息抽取的強(qiáng)勢(shì)發(fā)展，特別是在美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)所資助的消息理解會(huì)議(MUC)以及后來由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究(

6、NIST)組織的自動(dòng)內(nèi)容抽取(ACE，AutomaticContentExtraction)評(píng)測(cè)對(duì)不同文本信息抽取系統(tǒng)組織統(tǒng)一評(píng)估后，信息抽取已被用來專指文本信息的抽取。信息抽取的目標(biāo)是從HTML網(wǎng)頁或文本中抽取出特定的事實(shí)信息(FactualInformation)。比如，從書店的貨品欄記錄中抽取出書名、類別、價(jià)格、作者、出版社等；從圖書的內(nèi)容簡(jiǎn)介中抽取出圖書中具體包含的內(nèi)容、作者背景信息、圖書的評(píng)價(jià)、用途等等信息。通常，被抽取出的信息要以結(jié)構(gòu)化形式描述，可以直接存入數(shù)據(jù)庫，供用戶●查詢以及進(jìn)一步進(jìn)行集成分析。Web信息抽取，就是將web作為信息源的一

7、類信息抽取。它的主要任務(wù)就是如何將分散在Intemet上半結(jié)構(gòu)化的HTML上的信息或非結(jié)構(gòu)化的頁面中隱含信息提取出來，并以更為結(jié)構(gòu)化、語義更為清晰的形式表示，為用戶在web查詢數(shù)據(jù)，應(yīng)用程序直接利用web中的數(shù)據(jù)提供便利。從自由文本中獲取結(jié)構(gòu)化的信息的研究最早開始于20世紀(jì)60年代中期，這被看作是信息抽取技術(shù)的初始研究，它以兩個(gè)長(zhǎng)期的、研究性的自然語言處理項(xiàng)目為代表。美國(guó)紐約大學(xué)開展LinguisticString的項(xiàng)目開始于60年代中期并一直延續(xù)到90年代。該項(xiàng)目的主要研究?jī)?nèi)容是建立一個(gè)大規(guī)模的英語計(jì)算語法，與之相關(guān)的應(yīng)用是從醫(yī)療領(lǐng)域的光報(bào)告和醫(yī)院出院

8、記錄中抽取信息格式，這種信息格式實(shí)際上就是現(xiàn)在所說的模板。另一個(gè)相關(guān)的長(zhǎng)期項(xiàng)目是

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 66



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于框架語義標(biāo)注的web信息抽取技術(shù)研究

基于框架語義標(biāo)注的web信息抽取技術(shù)研究

相關(guān)文章

相關(guān)標(biāo)簽