資源描述:
《試論web信息抽取技術(shù)研究與基于web service的實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、河北大學碩士學位論文Web信息抽取技術(shù)研究與基于Webservice的實現(xiàn)姓名:張志強申請學位級別:碩士專業(yè):計算機應用技術(shù)指導教師:李天柱20040601摘要摘要隨著Internet技術(shù)的發(fā)展WWW上積累了大量數(shù)據(jù)成為世界上最大的數(shù)據(jù)源但Web信息多以HTML格式發(fā)布缺乏語義信息造成大量的Web數(shù)據(jù)不能直接為應用程序直接使用為了使大量的Web數(shù)據(jù)能夠為以數(shù)據(jù)為驅(qū)動的應用所使用人們廣泛采用了信息抽取技術(shù)現(xiàn)已成為當前研究熱點之一在以往的工作中我們實現(xiàn)了基于結(jié)構(gòu)的信息抽取技術(shù)在Web網(wǎng)頁顯示特征的深入分析基礎(chǔ)上以XpathXquery作為抽取規(guī)則給出了一
2、套抽取規(guī)則的生成優(yōu)化方案試驗結(jié)果表明這套方案所使用的方法具有較高的查準率查全率但在該方法中對Web網(wǎng)頁結(jié)構(gòu)的幾個特殊情況只做了特定地分析缺乏理論上地系統(tǒng)闡述對抽取能力的表達也不夠充分本文仔細研究了基于結(jié)構(gòu)信息抽取方法的典型系統(tǒng)借鑒非1NF關(guān)系數(shù)據(jù)庫的關(guān)系模式的平面化/嵌套化操作引入了DOM的平面化/嵌套化理論對Web網(wǎng)頁結(jié)構(gòu)做了深入分析給出了三種基本類型的平面化/嵌套化情況1集合對象平面化2元組對象平面化3DOM結(jié)構(gòu)嵌套粒度過大分析了各種平面化/嵌套化對抽取的影響之后引入了結(jié)構(gòu)重組規(guī)則針對各種平面化情況采用結(jié)構(gòu)重組規(guī)則給出了相應的具體解決方案提高了系
3、統(tǒng)的抽取能力結(jié)合Web網(wǎng)頁結(jié)構(gòu)的上下文環(huán)境對各種結(jié)構(gòu)重組規(guī)則的具體解決方法的適應性進行了詳細的分析初步討論了基于結(jié)構(gòu)的信息抽取技術(shù)的抽取能力規(guī)則重構(gòu)規(guī)則中區(qū)分節(jié)點的方法不局限于基于結(jié)構(gòu)的信息抽取技術(shù)還可以采用其他信息抽取技術(shù)的方法提高了現(xiàn)有信息抽取技術(shù)的效率和健壯性同時為各種信息抽取技術(shù)的融合提供了一種思路WebService的出現(xiàn)為數(shù)據(jù)集成提供一種很好的解決方案本文將WebService技術(shù)與信息抽取技術(shù)相結(jié)合在原型系統(tǒng)中實現(xiàn)了基于WebService的信息抽取系統(tǒng)關(guān)鍵詞信息抽取語義模式DOM平面化/嵌套化WebServiceIAbstractAb
4、stractAsInternetrapidlydeveloping,WorldWideWebhasalreadybecomethebiggestinformationresources.ButthemostofvaluableWebinformationisinHTMLform,whichmarkedbyHTMLandaimatrepresentationandlackofschemaandsemanticinformation,inordertoaccesstheWebinformationwithstructuredanduniformedway
5、,peopleapplyinformationextractiontechnologytoWeb.Inthepastwork,wehaveimplementedaprotypesystem,itbeprovedbeworkwellbyexperiment.Butatpresent,noworkhasanalysisedtheWebstructureintheoreticway.Now,inthispaper,weintroduceunnest/nesttheorytoillustratetheWebpagestructure.Afterstudied
6、sometypicalinformationextractsystemsbasedonstructure,wefindtherearefourkinksofnest/unnest:(1)unnestofsetobject;(2)unnestofrecordobject;(3)toobiggranularityofDOMnode.Underthistheory,weprovidedeffrentRestructure_Rullforeverykindofnest/unnest,andanalysistheadaptabilityoftheRestruc
7、ture_Rull.ByRestructrue_Rull,wecanuseotherinformationextracttechnologyinoursystem,bythiswaywefindamethodtointegratemanyinformationextracttechnologytogether.WebServiceisthefutureoftheInternetandprovidesagoodsolutionforinformationintegrate.WeintegrateWebServicetechnologywiththein
8、formationextractiontechnologyanddevelopaprotypesystemb