資源描述:
《WEB就業(yè)信息抽取技術研究》由會員上傳分享,免費在線閱讀,更多相關內容在工程資料-天天文庫。
1、WEB就業(yè)信息抽取技術研究WEB就業(yè)信息抽取技術研究摘耍:隨著Internet的快速發(fā)展,網(wǎng)絡已成為人們查詢信息的重要渠道。Web作為巨大的數(shù)據(jù)源,從Web中提取知識是當前研究的熱點之一。在這些海量信息中,大多都是基于HTML的。該文提出一種基于HTML結構的Web就業(yè)信息抽取模型。關鍵詞:信息抽取;HTML;就業(yè)信息;WEB表格中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2013)10-2298-031概述隨著Internet的快速發(fā)展,互聯(lián)網(wǎng)正在快速滲透到人們的日常生活中,網(wǎng)絡已成為人們獲取信息的主要渠道之一。網(wǎng)絡有信息量大和使用方便快捷的特點,在當前嚴峻的就業(yè)形
2、勢下,成為人們了解就業(yè)信息的重要手段。因此面對如此浩大混雜的網(wǎng)絡信息海洋,研究怎樣從就業(yè)信息發(fā)布網(wǎng)站中抽取出有用的信息,十分有意義。在這些網(wǎng)絡信息中,大多都是使用HTML表示的,也就是說現(xiàn)階段的Web網(wǎng)貝大部分是采用超文本標記語言HTML(HypertextMarkupLanguage)進行描述的。HTML是半結構化的,這種語言用定義好的標簽來組織信息,用戶看到的網(wǎng)絡信息就是經過瀏覽器解析HTML形成的。然而,HTML在語法限制上并不嚴格,語義也不清晰,頁面內部還加入了Javascript腳本語言,人們想要從網(wǎng)頁中快速準確的獲得有用的信息十分困難。目前基于HTML結構的信息抽取,對需耍抽取
3、的信息點定位的依據(jù)是Web頁面的結構特征。通過將頁面文檔解析為語法樹并對其學習產生抽取規(guī)則,把信息抽取過程轉化為操作語法樹來實現(xiàn)信息的抽取。目前比較具有代表性的系統(tǒng)有Wrap.W4F、LIXT0和RoadRunner。2信息抽取模型我們發(fā)現(xiàn)此類網(wǎng)站的頁面結構比較簡單和統(tǒng)一,就業(yè)信息在頁面中都是用Table表格作為表達方式集中起來。因此,我們將對此類網(wǎng)站信息提取的研究重點主要放在對Web頁中表格信息抽取的研究上。具體來說,我們將Web中的表格分為以下兩類:1)假表格:其作用是布局網(wǎng)頁結構和美化頁面的,里面不包含我們需要的數(shù)據(jù)信息,在這些表格中一般都包含大量圖片、廣告或鏈接等內容,我們叫它假表
4、格。但是也不排除假表格中包含數(shù)據(jù)信息,比如,我們要抽取出表格中包含的就業(yè)信息。在同一頁面中,可能同吋存在另外一張表格,其中包含火車票價格的信息。雖然表格中的火「乍票價格也是數(shù)據(jù)信息,但并非我們所需要的,這種表格我們也稱它為假表格。頁面清洗解析:對獲得的WEB頁進行代碼過濾、頁面清洗,將IITML文檔轉化成結構化的、語法要求嚴格的文檔,這里指符合XML標準格式的文檔。然后根據(jù)文檔對象模型,HTML文檔被解析后,轉化為DOM樹。DOM樹的每個結點是一個對象。DOM模型描述了文檔的結構,利用對象的方法和屬性,可以方便地訪問、添加和刪除DOM樹的結點和內容。表格定位:定位出真止包含用戶感興趣信息的
5、真表格,過濾掉假表格。信息抽取:識別表格內容并提取信息。3數(shù)據(jù)抽取實現(xiàn)3.1頁面清洗解析3.2WEB表格定位在HTML頁面中,數(shù)據(jù)表格指的是用來組織和顯示數(shù)據(jù)信息的〈TABLE〉和〈/TABLE〉標簽中的區(qū)域。它的特點是:清晰、簡潔、邏輯性和對比性強,這些表格中有些包含用戶感興趣的信息,對于我們的研究來說,屬于“真表格”。這種表格是我們要進行信息抽取的對象。非數(shù)據(jù)表格是指被用來進行頁面布局的<TABLE>區(qū)域,能達到美化頁面的效果,在我們的研究中,屬于噪音信息,我們稱之為“假表格”o我們要定位出真止包含用戶感興趣信息的真表格,過濾掉假表格。根據(jù)以上提出的規(guī)則在WEB就業(yè)信息網(wǎng)頁中我們可以定
6、位“真表格”的位置,這部分表格經過IITMLParser的解析得到了較好的結果。我們可以到這些單元格之間的行列關系并很好地抽取出表格中的每個單元格數(shù)據(jù)。圖3提取出的表格信息4總結本文研究的Web就業(yè)信息抽取的技術雖在一定程度上解決了就業(yè)信息的抽取困難,但在許多方面仍存在不足,需進一步研究。首先是在文檔頁面結構較為復雜的時候,抽取的準確率會降低,因此,需要進一步研究加強抽取規(guī)則的通用性;其次,本研究主要針對Web上的就業(yè)信息抽取,對其他信息點抽取還不具有通用性。參考文獻:[1]蒲筱哥?基于Web的信息抽取技術研究綜述[J]?現(xiàn)代情報,2007(27):215-219.(下轉第2303頁)(上
7、接第2300頁)[2]石宇?基于XML的Web信息抽取與集成技術的研究[D].大連:大連海事大學碩士學位論文,2006.[3]秦振海,譚守標,徐超?基于web的表格信息抽取研究[J].計算機技術與發(fā)展(原微機發(fā)展),2009,19(2):217-220.[4]王海潮?基于網(wǎng)頁結構的信息抽取關鍵技術研究[D]?廣州:華南理工大學,2011.[5]李劍波?一種基于XML的Web信息抽取方法[J]?情報雜志,2006(8):4