資源描述:
《基于html的web就業(yè)信息抽取技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號密級基于HTML的WEB就業(yè)信息抽取技術(shù)研究研究生姓名:戴慧敏指導(dǎo)教師姓名、職稱:朱艷輝教授學(xué)科專業(yè):計算機(jī)應(yīng)用技術(shù)研究方向:智能信息處理湖南工業(yè)大學(xué)二零一三年五月三十一日萬方數(shù)據(jù)萬方數(shù)據(jù)萬方數(shù)據(jù)摘要隨著計算機(jī)的普及和互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)已成為人們查找信息的重要渠道。Web作為巨大的數(shù)據(jù)源,從Web中抽取信息是當(dāng)前信息研究的熱點之一。隨著我國高校招生規(guī)模逐年擴(kuò)大,給高校學(xué)生的培養(yǎng)及就業(yè)帶來了諸多壓力。我們希望從互聯(lián)網(wǎng)上獲得大量的就業(yè)信息,對專業(yè)建設(shè)和就業(yè)有一定的指導(dǎo)意義?;ヂ?lián)網(wǎng)的這些海量信息中,大多都是半結(jié)構(gòu)化的HTML格式。HTML結(jié)構(gòu)的文本并不嚴(yán)格,語義也不清晰,人們無法快
2、速準(zhǔn)確地找到需要的信息,所以如何快速準(zhǔn)確地獲取這些數(shù)據(jù)是亟待解決的問題。因此,我們分析了就業(yè)信息網(wǎng)站中HTML網(wǎng)頁的特點,提出一種新的基于HTML結(jié)構(gòu)的Web就業(yè)信息抽取模型。該模型由HTML結(jié)構(gòu)預(yù)處理模塊、表格定位模塊和信息抽取模塊三個模塊組成。首先我們利用JTidy對獲取的Web頁代碼進(jìn)行清洗并轉(zhuǎn)化為XML文檔。再經(jīng)過XML解析獲取Web頁的DOM樹。最后通過大量的觀察,我們形成啟發(fā)規(guī)則來定位“真”表格,設(shè)計實現(xiàn)了算法;考慮到表格的跨多行、跨多列的布局會導(dǎo)致各個數(shù)據(jù)單元和相應(yīng)屬性無法一一對應(yīng),本文對表格進(jìn)行標(biāo)準(zhǔn)化處理,使每一行或列都具有相同數(shù)目對齊的單元格。在多個網(wǎng)站進(jìn)行實驗的
3、結(jié)果表明,本文提出的Web信息抽取方法能夠有效地抽取網(wǎng)頁中的就業(yè)信息數(shù)據(jù)。對于Web就業(yè)信息抽取和指導(dǎo)今后進(jìn)一步的研究方向等方面都有著重要的意義。關(guān)鍵詞:信息抽取,HTML,DOM樹,WEB表格I萬方數(shù)據(jù)ABSTRACTWiththeincreasingubiquityofthecomputerandInternet,ithasbeenbecominganimportantchannelforPeopletoseareehforinformation.Asanenormousdatasource,retrivinginformationfromWebisoneofthehotpoi
4、ntsintheinformationstudyfieldnow.Withthecollegeenrollmentinourcountryhasbeenexpandingeachyears,whichgivesthestudenteducationandemploymentmanypressures.Wehopetoobtainalargeamountaboutemploymentinformationfrominternet,whichhasbeenprovidedguidingsignifieancetospecialtyconstructionandstudentemploy
5、ment.ThemostofthismasswebdataofinternetarebasedonthesemistructuredHTMLformat.ThetextbaseonHTMLstructureisnotstrictlyandthesemanticsisnotclear.Peoplecan'tfindtherequireddataquicklyandaccuratelyfromthewebdata,howtoquicklyandaccuratelyobtainthesedataisaurgentproblemneedtoresolve.Sointhispaperitpr
6、esentsanewmodelbasedonHTMLstructurethatextractsinformationfromwebemploymentinformation.ItiscomposedofHTMLstructurepretreatmentmodule,tablepositioningmoduleandinformationextractionmodule.Thefirst,JtidyisusetocleantheWebPagecodewhichisconvertedintoXMLdocuments.ThentheDOMtreeofWebinformationisfou
7、ndintheanalysisofXML.Inthelast,Throughalargenumberofobservation,weobtaintheheuristicrulesaboutlocatethepositonofthegenuinetableandalgorithmsaredesignedandimplemented.Thispaperconsiderssuchlayouttypeasthecross-rowandcross-columninstance,