資源描述:
《基于框架語義標(biāo)注的web信息抽取技術(shù)研究new》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、太原理工大學(xué)碩士學(xué)位論文基于框架語義標(biāo)注的Web信息抽取技術(shù)研究姓名:白鵬洲申請學(xué)位級別:碩士專業(yè):計算機(jī)軟件與理論指導(dǎo)教師:牛之賢20080501太原理工大學(xué)碩士研究生學(xué)位論文基于框架語義標(biāo)注的web信息抽取技術(shù)研究摘要隨著Internet的快速發(fā)展,web已經(jīng)成為全球化的信息源,它為信息共享和資源共享提供了一個良好的平臺。然而,用傳統(tǒng)的搜索引擎人們很難迅速準(zhǔn)確地找到所需要的信息。信息抽取技術(shù)正是在這樣的前提背景下產(chǎn)生的,信息抽取是從網(wǎng)頁(文本)中自動地抽取出有用的信息的一種技術(shù),它是目前智能信息處理的一個重要研究課題。信
2、j息抽取系統(tǒng)在web上抽取的信息不僅可以直接提供給用戶,還可以作為構(gòu)建智能查詢系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)的基礎(chǔ),有著廣闊的應(yīng)用前景。本文首先介紹了信息抽取系統(tǒng)的產(chǎn)生背景、發(fā)展歷史,研究了信息抽取技術(shù)的研究現(xiàn)狀,分析了當(dāng)前幾種重要的信息抽取工具和當(dāng)前信息抽取工具的一些缺陷一一缺乏語義或語義模型過于簡單。然后針對這一不足之處,利用框架語義在語義信息標(biāo)示方面的優(yōu)勢來解決信息抽取結(jié)果中語義信息缺失或語義信息過于簡單這一問題,提出了一種信息抽取的方法一一基于框架語義標(biāo)注的信息抽取。本文通過構(gòu)造一個基于框架語義標(biāo)注的web圖書信息抽取系統(tǒng)來說明
3、基于框架語義標(biāo)注的信息抽取技術(shù)的思想一一將框架語義網(wǎng)絡(luò)技術(shù)、領(lǐng)域本體知識和信息抽取技術(shù)相結(jié)合。對自由文本進(jìn)行信息抽取時,首先進(jìn)行框架語義標(biāo)注,再根據(jù)標(biāo)注結(jié)果結(jié)合領(lǐng)域本體知識生成抽取規(guī)則。該方法的特點(diǎn)在于在抽取過程中以框架語義標(biāo)注作為構(gòu)建信息抽取規(guī)則的基礎(chǔ),太原理工大學(xué)碩士研究生學(xué)位論文用統(tǒng)一的方法來指導(dǎo)信息抽取過程一一以語義角色為核心構(gòu)建信息模式,將信息模式的建立上升到語義角色一級,從而達(dá)到所抽取出信息的帶有明確的語義信息。本系統(tǒng)對于實(shí)現(xiàn)基于語義的信息抽取研究具有重要的現(xiàn)實(shí)意義。不僅如此,它的體系結(jié)構(gòu)和主要模塊的設(shè)計思想,對
4、于其他文檔的信息抽取系統(tǒng)的設(shè)計和實(shí)現(xiàn)也具有較高的借鑒價值。關(guān)鍵詞:信息抽取,框架語義,領(lǐng)域本體,包裝器,抽取規(guī)則太原理工大學(xué)碩士研究生學(xué)位論文RESEARCHOFⅥ砸BINFORMATl0NEXTRACTl0NTECHMCALBASEDONFRAM匝SEMANTICTAGGINGABSTRACTWiththerapiddevelopmentofIntemet,webhasbecomedtheglobalinformationsource,whichprovidesanidealplaceforsharingandcommun
5、icationinformation.However,it。Shardforusertogetaccesstotheneededandusefulinformationquicklyandcorrectlybytraditionalsearchengine.Anewtechnical一-informationextractionhasbeenputforword.Informationextractioncanextractauto—maticallyusefulinformationfromweb(text).Ithasb
6、eenbecameanimportantresearchtopicintheintelligentinformationprocessingfield.Theseinformationextractedfromthewebsitecannotonlyprovidetheuserbutalsobeafoundationresourceoftheintelligentquerysystemanddataminingsystem.Informationextractionhasverybroadapplicationprospec
7、ts.Thispaperpresentsthebackground,historyofinformationextraction,reviewstheinformationextractionstateofIntemet,analysisseveralimportanttoolsofinformationextraction.Andweanalysissomedisadvantagesofcurrentinformationextractiontechniques.Bacauseoftheadvantagesofframes
8、ematicsinsematicsinformationindicated,anewmethodofinformationIII太原理工大學(xué)碩士研究生學(xué)位論文extractionbaseonflamesematicstaggingwasputforwordtOresolvethisissu