基于xpath的新聞信息抽取系統(tǒng)設計與實現(xiàn)

ID：21041505

大?。?0.27 KB

頁數(shù)：11頁

時間：2018-10-19

資源描述：

《基于xpath的新聞信息抽取系統(tǒng)設計與實現(xiàn)》由會員上傳分享，免費在線閱讀，更多相關內(nèi)容在學術論文-天天文庫。

1、于XPath的新聞信息抽取系統(tǒng)設計與實現(xiàn)摘要：隨著互聯(lián)網(wǎng)技術的迅猛發(fā)展，因特網(wǎng)成為目前新聞信息最豐富最主要的來源。本文在分析新聞網(wǎng)頁的基礎上，并分析了目前現(xiàn)有的信息抽取技術和XML技術，提出了一個基于XML技術的Web新聞抽取系統(tǒng)。本文主要是充分運用XML中的XPath技術在數(shù)據(jù)定位方面的優(yōu)勢，并提出一種基于DOM樹的XPath生成算法，使用XSLT語言用于描述抽取規(guī)則，并使用路徑表達式XPath定位待抽取的信息點。關鍵詞：數(shù)1據(jù)挖掘；信息抽取；新聞抽取系統(tǒng)；XPath中圖分類號：TP391.3文獻標識號：A文章編號：2095-2163(2015-)02-DesignandImplement

2、ationofNewsandInformationExtractionSystembasedonXPathRUANJuan(TaizhouVocational&TechnicalCollege,TaizhouZhejiang318000,China)Abstract：WiththerapiddevelopmentofInternettechnology,theInternetisnowthemainsourceofthemostabundantinformation.OnthebasisoftheanalysisofnewsWebpages,andanalysisofthecurrentex

3、istinginformationextractiontechnologyandXMLtechnology,thepaperpresentsaWebnewsextractionsystembasedonXMLtechnology.ThispapermainlyusestheXPathXMLtechnologyindatalocationadvantages，andputsforwardaDOMtreebasedXPathgenerationalgorithm,usingXSLTlanguagetodescribetheselectionrules,andthepathexpressionXP

4、athtoextractinformationpoint.Keywords：DataMining；InformationExtraction；NewsandInformationExtractionSystem；XPath0引言隨著時代發(fā)展，高校信息化建設成為影響學校發(fā)展的重要因素。目前高校主要活動由黨委宣傳部集中拫道并及時發(fā)布門戶網(wǎng)站，其他信息則由宣傳部下屬各二級單位信息員提供，或是宣傳部采集二級網(wǎng)站新聞來進行獲取。但網(wǎng)站在為學校教職工提供大量豐富信息的同時，卻也為如何獲得更加高效實用信息帶來了巨大挑戰(zhàn)，具體來說主要包括兩個方面。一方面，隨著學校的發(fā)展，各系部處室工作內(nèi)容的增加，Web信息

5、呈現(xiàn)爆炸式地增長，這就需要耗費信息采集員大量的時間、精力去搜集信息，但該種方式仍然還是會出現(xiàn)信息遺漏或新聞失去時效性等眾多問題。另一方面，雖然二級網(wǎng)站存在本站搜索引擎，但是并沒能給信息獲取帶來便捷。針對這一狀況，并且隨著對于信息獲取要求的提高，用戶已然趨向于更加精細、便捷的信息抽取方式。1目前國內(nèi)外信息抽取系統(tǒng)Web信息抽取的主要信息源就是互聯(lián)網(wǎng)?；ヂ?lián)網(wǎng)的Web頁上散布著隱含在HTML頁面中的信息點，信息抽取的目的就是將用戶需要查詢和利用的信息從網(wǎng)頁上提取出來［1］，并轉換成具有清晰語義的結構化文檔形式，再反饋給用戶。從20世紀80年代開始，信息抽取技術即已成為IT行業(yè)的研究熱點之一。隨著互

6、聯(lián)網(wǎng)的普及，Web信息抽取方面的研究逐漸興起，研究人員開發(fā)了多種算法和系統(tǒng)。目前在世界上最為著名的“Web挖掘”項目就是卡耐基？梅隆大學的“自動學習和發(fā)現(xiàn)中心”［2］。這個項目的主要實現(xiàn)目標就是通過大型數(shù)據(jù)庫存儲自動從Web中提取的用戶所需信息。國內(nèi)一些單位對信息抽取方面也已開展了大量研究。例如中科院軟件所研究的“基于D0M的信息抽取”［3］，其抽取規(guī)則主要是通過歸納學習法半自動化算法生成。數(shù)據(jù)源包裝器中的類就是由抽取規(guī)則而產(chǎn)生及實現(xiàn)的。2基于XPath的信息抽取方法2.1抽取方法概述抽取規(guī)則生成是信息抽取的核心任務，而抽取規(guī)則實際上就是定位用戶感興趣的信息數(shù)據(jù)。若要定位Web文檔中的數(shù)據(jù)，

7、就必須從頭至尾遍歷網(wǎng)頁。但這一方式卻會嚴重影響信息抽取效率。在此，為了減小信息抽取的搜索空間，本文采用了Xpath的抽取方法?；赬Path規(guī)則的信息抽取過程則如圖1所示。1基于XPath的抽取方法Fig.1ExtractionmethodbasedonXPath基于XPath的抽取方法主要包括如下三步：(1)首先需進行數(shù)據(jù)清洗。系統(tǒng)可從互聯(lián)網(wǎng)下載用戶所需的Web文檔，將其轉化成規(guī)范的XML文檔。這一步驟的主

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 11



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于xpath的新聞信息抽取系統(tǒng)設計與實現(xiàn)

基于xpath的新聞信息抽取系統(tǒng)設計與實現(xiàn)

相關文章

相關標簽