資源描述:
《基于xpath的新聞信息抽取系統(tǒng)設計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、于XPath的新聞信息抽取系統(tǒng)設計與實現(xiàn)摘要:隨著互聯(lián)網(wǎng)技術的迅猛發(fā)展,因特網(wǎng)成為目前新聞信息最豐富最主要的來源。本文在分析新聞網(wǎng)頁的基礎上,并分析了目前現(xiàn)有的信息抽取技術和XML技術,提出了一個基于XML技術的Web新聞抽取系統(tǒng)。本文主要是充分運用XML中的XPath技術在數(shù)據(jù)定位方面的優(yōu)勢,并提出一種基于DOM樹的XPath生成算法,使用XSLT語言用于描述抽取規(guī)則,并使用路徑表達式XPath定位待抽取的信息點。關鍵詞:數(shù)1據(jù)挖掘;信息抽取;新聞抽取系統(tǒng);XPath中圖分類號:TP391.3文獻標識號:A文章編號:2095-2163(2015-)02-DesignandImplement
2、ationofNewsandInformationExtractionSystembasedonXPathRUANJuan(TaizhouVocational&TechnicalCollege,TaizhouZhejiang318000,China)Abstract:WiththerapiddevelopmentofInternettechnology,theInternetisnowthemainsourceofthemostabundantinformation.OnthebasisoftheanalysisofnewsWebpages,andanalysisofthecurrentex
3、istinginformationextractiontechnologyandXMLtechnology,thepaperpresentsaWebnewsextractionsystembasedonXMLtechnology.ThispapermainlyusestheXPathXMLtechnologyindatalocationadvantages,andputsforwardaDOMtreebasedXPathgenerationalgorithm,usingXSLTlanguagetodescribetheselectionrules,andthepathexpressionXP
4、athtoextractinformationpoint.Keywords:DataMining;InformationExtraction;NewsandInformationExtractionSystem;XPath0引言隨著時代發(fā)展,高校信息化建設成為影響學校發(fā)展的重要因素。目前高校主要活動由黨委宣傳部集中拫道并及時發(fā)布門戶網(wǎng)站,其他信息則由宣傳部下屬各二級單位信息員提供,或是宣傳部采集二級網(wǎng)站新聞來進行獲取。但網(wǎng)站在為學校教職工提供大量豐富信息的同時,卻也為如何獲得更加高效實用信息帶來了巨大挑戰(zhàn),具體來說主要包括兩個方面。一方面,隨著學校的發(fā)展,各系部處室工作內(nèi)容的增加,Web信息
5、呈現(xiàn)爆炸式地增長,這就需要耗費信息采集員大量的時間、精力去搜集信息,但該種方式仍然還是會出現(xiàn)信息遺漏或新聞失去時效性等眾多問題。另一方面,雖然二級網(wǎng)站存在本站搜索引擎,但是并沒能給信息獲取帶來便捷。針對這一狀況,并且隨著對于信息獲取要求的提高,用戶已然趨向于更加精細、便捷的信息抽取方式。1目前國內(nèi)外信息抽取系統(tǒng)Web信息抽取的主要信息源就是互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)的Web頁上散布著隱含在HTML頁面中的信息點,信息抽取的目的就是將用戶需要查詢和利用的信息從網(wǎng)頁上提取出來[1],并轉換成具有清晰語義的結構化文檔形式,再反饋給用戶。從20世紀80年代開始,信息抽取技術即已成為IT行業(yè)的研究熱點之一。隨著互
6、聯(lián)網(wǎng)的普及,Web信息抽取方面的研究逐漸興起,研究人員開發(fā)了多種算法和系統(tǒng)。目前在世界上最為著名的“Web挖掘”項目就是卡耐基?梅隆大學的“自動學習和發(fā)現(xiàn)中心”[2]。這個項目的主要實現(xiàn)目標就是通過大型數(shù)據(jù)庫存儲自動從Web中提取的用戶所需信息。國內(nèi)一些單位對信息抽取方面也已開展了大量研究。例如中科院軟件所研究的“基于D0M的信息抽取”[3],其抽取規(guī)則主要是通過歸納學習法半自動化算法生成。數(shù)據(jù)源包裝器中的類就是由抽取規(guī)則而產(chǎn)生及實現(xiàn)的。2基于XPath的信息抽取方法2.1抽取方法概述抽取規(guī)則生成是信息抽取的核心任務,而抽取規(guī)則實際上就是定位用戶感興趣的信息數(shù)據(jù)。若要定位Web文檔中的數(shù)據(jù),
7、就必須從頭至尾遍歷網(wǎng)頁。但這一方式卻會嚴重影響信息抽取效率。在此,為了減小信息抽取的搜索空間,本文采用了Xpath的抽取方法?;赬Path規(guī)則的信息抽取過程則如圖1所示。1基于XPath的抽取方法Fig.1ExtractionmethodbasedonXPath基于XPath的抽取方法主要包括如下三步:(1)首先需進行數(shù)據(jù)清洗。系統(tǒng)可從互聯(lián)網(wǎng)下載用戶所需的Web文檔,將其轉化成規(guī)范的XML文檔。這一步驟的主