基于html的web就業(yè)信息抽取技術(shù)研究

基于html的web就業(yè)信息抽取技術(shù)研究

ID:26840640

大小:2.73 MB

頁數(shù):77頁

時間:2018-11-29

基于html的web就業(yè)信息抽取技術(shù)研究_第1頁
基于html的web就業(yè)信息抽取技術(shù)研究_第2頁
基于html的web就業(yè)信息抽取技術(shù)研究_第3頁
基于html的web就業(yè)信息抽取技術(shù)研究_第4頁
基于html的web就業(yè)信息抽取技術(shù)研究_第5頁
資源描述:

《基于html的web就業(yè)信息抽取技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、分類號密級基于HTML的WEB就業(yè)信息抽取技術(shù)研究研究生姓名:戴慧敏指導(dǎo)教師姓名、職稱:朱艷輝教授學(xué)科專業(yè):計算機(jī)應(yīng)用技術(shù)研究方向:智能信息處理湖南工業(yè)大學(xué)二零一三年五月三十一日萬方數(shù)據(jù)萬方數(shù)據(jù)萬方數(shù)據(jù)摘要隨著計算機(jī)的普及和互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)已成為人們查找信息的重要渠道。Web作為巨大的數(shù)據(jù)源,從Web中抽取信息是當(dāng)前信息研究的熱點之一。隨著我國高校招生規(guī)模逐年擴(kuò)大,給高校學(xué)生的培養(yǎng)及就業(yè)帶來了諸多壓力。我們希望從互聯(lián)網(wǎng)上獲得大量的就業(yè)信息,對專業(yè)建設(shè)和就業(yè)有一定的指導(dǎo)意義?;ヂ?lián)網(wǎng)的這些海量信息中,大多都是半結(jié)構(gòu)化的HTML格式。HTML結(jié)構(gòu)的文本并不嚴(yán)格,語義也不清晰,人們無法快

2、速準(zhǔn)確地找到需要的信息,所以如何快速準(zhǔn)確地獲取這些數(shù)據(jù)是亟待解決的問題。因此,我們分析了就業(yè)信息網(wǎng)站中HTML網(wǎng)頁的特點,提出一種新的基于HTML結(jié)構(gòu)的Web就業(yè)信息抽取模型。該模型由HTML結(jié)構(gòu)預(yù)處理模塊、表格定位模塊和信息抽取模塊三個模塊組成。首先我們利用JTidy對獲取的Web頁代碼進(jìn)行清洗并轉(zhuǎn)化為XML文檔。再經(jīng)過XML解析獲取Web頁的DOM樹。最后通過大量的觀察,我們形成啟發(fā)規(guī)則來定位“真”表格,設(shè)計實現(xiàn)了算法;考慮到表格的跨多行、跨多列的布局會導(dǎo)致各個數(shù)據(jù)單元和相應(yīng)屬性無法一一對應(yīng),本文對表格進(jìn)行標(biāo)準(zhǔn)化處理,使每一行或列都具有相同數(shù)目對齊的單元格。在多個網(wǎng)站進(jìn)行實驗的

3、結(jié)果表明,本文提出的Web信息抽取方法能夠有效地抽取網(wǎng)頁中的就業(yè)信息數(shù)據(jù)。對于Web就業(yè)信息抽取和指導(dǎo)今后進(jìn)一步的研究方向等方面都有著重要的意義。關(guān)鍵詞:信息抽取,HTML,DOM樹,WEB表格I萬方數(shù)據(jù)ABSTRACTWiththeincreasingubiquityofthecomputerandInternet,ithasbeenbecominganimportantchannelforPeopletoseareehforinformation.Asanenormousdatasource,retrivinginformationfromWebisoneofthehotpoi

4、ntsintheinformationstudyfieldnow.Withthecollegeenrollmentinourcountryhasbeenexpandingeachyears,whichgivesthestudenteducationandemploymentmanypressures.Wehopetoobtainalargeamountaboutemploymentinformationfrominternet,whichhasbeenprovidedguidingsignifieancetospecialtyconstructionandstudentemploy

5、ment.ThemostofthismasswebdataofinternetarebasedonthesemistructuredHTMLformat.ThetextbaseonHTMLstructureisnotstrictlyandthesemanticsisnotclear.Peoplecan'tfindtherequireddataquicklyandaccuratelyfromthewebdata,howtoquicklyandaccuratelyobtainthesedataisaurgentproblemneedtoresolve.Sointhispaperitpr

6、esentsanewmodelbasedonHTMLstructurethatextractsinformationfromwebemploymentinformation.ItiscomposedofHTMLstructurepretreatmentmodule,tablepositioningmoduleandinformationextractionmodule.Thefirst,JtidyisusetocleantheWebPagecodewhichisconvertedintoXMLdocuments.ThentheDOMtreeofWebinformationisfou

7、ndintheanalysisofXML.Inthelast,Throughalargenumberofobservation,weobtaintheheuristicrulesaboutlocatethepositonofthegenuinetableandalgorithmsaredesignedandimplemented.Thispaperconsiderssuchlayouttypeasthecross-rowandcross-columninstance,

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。