基于xml的web信息抽取系統(tǒng)研究與實現(xiàn)

基于xml的web信息抽取系統(tǒng)研究與實現(xiàn)

ID:33999017

大?。?.24 MB

頁數(shù):62頁

時間:2019-03-03

基于xml的web信息抽取系統(tǒng)研究與實現(xiàn)_第1頁
基于xml的web信息抽取系統(tǒng)研究與實現(xiàn)_第2頁
基于xml的web信息抽取系統(tǒng)研究與實現(xiàn)_第3頁
基于xml的web信息抽取系統(tǒng)研究與實現(xiàn)_第4頁
基于xml的web信息抽取系統(tǒng)研究與實現(xiàn)_第5頁
資源描述:

《基于xml的web信息抽取系統(tǒng)研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。

1、膏’籮營參◆I,●分類號UDC論文題目10126.30713026密級編號研究生:圈主指導教師:丑亟量I』塾援專業(yè):讓簋扭型堂皇撞苤研究方向:△王蟹篚皇多基佳堇丕所在學院:讓篡扭堂院2011年6月15日I卜一卜Nr㈧■’,原創(chuàng)性聲明本人聲明:所呈交的學位論文是本人在導師的指導下進行的研究工作及取得的研究成果。除本文已經(jīng)注明引用的內(nèi)容外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得內(nèi)蒙直太堂及其他教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確

2、的說明并表示謝意。一學位論文作者簽名:雎日期:趁!f:么:!£!_指導教師簽名:壟礁壟公日期:趁!Z:笸!≤廠在學期間研究成果使用承諾書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,即:內(nèi)蒙古大學有權將學位論文的全部內(nèi)容或部分保留并向國家有關機構、部門送交學位論文的復印件和磁盤,允許編入有關數(shù)據(jù)庫進行檢索,也可以采用影印、縮印或其他復制手段保存、匯編學位論文。為保護學院和導師的知識產(chǎn)權,作者在學期間取得的研究成果(含計算機軟件、程序)屬于內(nèi)蒙古大學計算機學院。作者今后使用涉及在學期間主要研究內(nèi)容

3、或研究成果,須征得內(nèi)蒙古大學計算機學院就讀期間導師的同意;若用于發(fā)表論文,版權單位必須署名為內(nèi)蒙古大學計算機學院方可投稿或公開發(fā)表。學位論文作者簽名:啦指導教師簽名:蛆叢.白期:塑叢么!r日期:塑fZ。么么=-●內(nèi)蒙古大學碩士學位論文基于XML的WEB信息抽取系統(tǒng)研究與實現(xiàn)摘要隨著計算機科學技術與互聯(lián)網(wǎng)的不斷發(fā)展,在我們的工作和生活中web已變..得必不可少。web上信息資源呈幾何級數(shù)量增長,web已經(jīng)成為一個巨大的信息一資源庫,要想準確有效地獲取一條想要的信息變得越來越難,如何從web信息資源庫中抽取出

4、有用的信息已經(jīng)成為眾多科研工作者研究的課題,web信息抽取技術應運而生。本文在研究現(xiàn)有的web信息抽取技術基礎上,結合標準的XML技術,提出了基于XML的web信息抽取技術。本文主要工作有以下幾點:1.在研究前人技術成果基礎之上,對現(xiàn)有信息抽取技術加以整合和擴展,設計了基于XML的Web信息抽取系統(tǒng)框架模型。2.研究了信息抽取關鍵技術,闡述了信息抽取工作流程,設計了抽取規(guī)則和抽取配置文件的生成方法。最終,實現(xiàn)了Web信息抽取系統(tǒng)的主要功能.。3.本文對抽取結果進行分類,采用了樸素貝葉斯理論,設計了一個中文

5、Web文本分類系統(tǒng)模型,該模型隸屬于整個信息抽取系統(tǒng)框架模型。■4.系統(tǒng)抽取結果是XML數(shù)據(jù)文檔類型,在分析當前數(shù)據(jù)庫存儲技術基礎上,,。探討了將抽取結果經(jīng)分類后存儲到數(shù)據(jù)庫的不同方法。本文設計的基于XML的Web信息抽取系統(tǒng)能夠較好的解決web信息抽取問題,實驗結果表明,該系統(tǒng)具有較高的召回率和準確率。關鍵詞:XML,Web信息抽取,抽取規(guī)則,文本分類,XML數(shù)據(jù)存儲基于XML的WEB信息抽取系統(tǒng)研究與實現(xiàn)XML--basedWEBInformationExtractionSystemResearcha

6、ndImplementationAbstractAscomputerscienceandtechnologyandtheInternetcontinuetodevelop,webhasbecomeessentialinourworkandlife.Webinformationresourcesaregrowingonthenumberofexponentially,webhasbecomeahugerepositoryofinformation,inordertoobtaindesiredinformat

7、ionaccuratelyandeffectivelybecomesmoreandmoredifficult,andhowtoextractuseful_informationfromawebinformationrepositoryhasbecomethesubjectofmanyresearchscientists,webinformationextractiontechnologyispresented.Basedontheresrarchinexistingwebinformationextrac

8、tiontechnologyandcombinedwiththestandardXMLtechnology,XML-basedwebinformationextractiontechnologyisproposed.Themaincontributionsinthispaperalelistedasfollows:1.Basedontheresearchinprevioustechnicalachievements,toint

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。