基于html的web就業(yè)信息抽取技術(shù)研究

ID：26840640

大小：2.73 MB

頁數(shù)：77頁

時間：2018-11-29

資源描述：

《基于html的web就業(yè)信息抽取技術(shù)研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、分類號密級基于HTML的WEB就業(yè)信息抽取技術(shù)研究研究生姓名：戴慧敏指導(dǎo)教師姓名、職稱：朱艷輝教授學(xué)科專業(yè)：計算機(jī)應(yīng)用技術(shù)研究方向：智能信息處理湖南工業(yè)大學(xué)二零一三年五月三十一日萬方數(shù)據(jù)萬方數(shù)據(jù)萬方數(shù)據(jù)摘要隨著計算機(jī)的普及和互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)已成為人們查找信息的重要渠道。Web作為巨大的數(shù)據(jù)源，從Web中抽取信息是當(dāng)前信息研究的熱點之一。隨著我國高校招生規(guī)模逐年擴(kuò)大，給高校學(xué)生的培養(yǎng)及就業(yè)帶來了諸多壓力。我們希望從互聯(lián)網(wǎng)上獲得大量的就業(yè)信息，對專業(yè)建設(shè)和就業(yè)有一定的指導(dǎo)意義?；ヂ?lián)網(wǎng)的這些海量信息中，大多都是半結(jié)構(gòu)化的HTML格式。HTML結(jié)構(gòu)的文本并不嚴(yán)格，語義也不清晰，人們無法快

2、速準(zhǔn)確地找到需要的信息，所以如何快速準(zhǔn)確地獲取這些數(shù)據(jù)是亟待解決的問題。因此，我們分析了就業(yè)信息網(wǎng)站中HTML網(wǎng)頁的特點，提出一種新的基于HTML結(jié)構(gòu)的Web就業(yè)信息抽取模型。該模型由HTML結(jié)構(gòu)預(yù)處理模塊、表格定位模塊和信息抽取模塊三個模塊組成。首先我們利用JTidy對獲取的Web頁代碼進(jìn)行清洗并轉(zhuǎn)化為XML文檔。再經(jīng)過XML解析獲取Web頁的DOM樹。最后通過大量的觀察，我們形成啟發(fā)規(guī)則來定位“真”表格，設(shè)計實現(xiàn)了算法；考慮到表格的跨多行、跨多列的布局會導(dǎo)致各個數(shù)據(jù)單元和相應(yīng)屬性無法一一對應(yīng)，本文對表格進(jìn)行標(biāo)準(zhǔn)化處理，使每一行或列都具有相同數(shù)目對齊的單元格。在多個網(wǎng)站進(jìn)行實驗的

3、結(jié)果表明，本文提出的Web信息抽取方法能夠有效地抽取網(wǎng)頁中的就業(yè)信息數(shù)據(jù)。對于Web就業(yè)信息抽取和指導(dǎo)今后進(jìn)一步的研究方向等方面都有著重要的意義。關(guān)鍵詞：信息抽取，HTML，DOM樹，WEB表格I萬方數(shù)據(jù)ABSTRACTWiththeincreasingubiquityofthecomputerandInternet,ithasbeenbecominganimportantchannelforPeopletoseareehforinformation.Asanenormousdatasource,retrivinginformationfromWebisoneofthehotpoi

4、ntsintheinformationstudyfieldnow.Withthecollegeenrollmentinourcountryhasbeenexpandingeachyears,whichgivesthestudenteducationandemploymentmanypressures.Wehopetoobtainalargeamountaboutemploymentinformationfrominternet,whichhasbeenprovidedguidingsignifieancetospecialtyconstructionandstudentemploy

5、ment.ThemostofthismasswebdataofinternetarebasedonthesemistructuredHTMLformat.ThetextbaseonHTMLstructureisnotstrictlyandthesemanticsisnotclear.Peoplecan'tfindtherequireddataquicklyandaccuratelyfromthewebdata,howtoquicklyandaccuratelyobtainthesedataisaurgentproblemneedtoresolve.Sointhispaperitpr

6、esentsanewmodelbasedonHTMLstructurethatextractsinformationfromwebemploymentinformation.ItiscomposedofHTMLstructurepretreatmentmodule,tablepositioningmoduleandinformationextractionmodule.Thefirst,JtidyisusetocleantheWebPagecodewhichisconvertedintoXMLdocuments.ThentheDOMtreeofWebinformationisfou

7、ndintheanalysisofXML.Inthelast,Throughalargenumberofobservation,weobtaintheheuristicrulesaboutlocatethepositonofthegenuinetableandalgorithmsaredesignedandimplemented.Thispaperconsiderssuchlayouttypeasthecross-rowandcross-columninstance,

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 77



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于html的web就業(yè)信息抽取技術(shù)研究

基于html的web就業(yè)信息抽取技術(shù)研究

相關(guān)文章

相關(guān)標(biāo)簽