web頁面細(xì)粒度數(shù)據(jù)抽取方法研究

web頁面細(xì)粒度數(shù)據(jù)抽取方法研究

ID:5318107

大?。?45.41 KB

頁數(shù):5頁

時(shí)間:2017-12-08

web頁面細(xì)粒度數(shù)據(jù)抽取方法研究_第1頁
web頁面細(xì)粒度數(shù)據(jù)抽取方法研究_第2頁
web頁面細(xì)粒度數(shù)據(jù)抽取方法研究_第3頁
web頁面細(xì)粒度數(shù)據(jù)抽取方法研究_第4頁
web頁面細(xì)粒度數(shù)據(jù)抽取方法研究_第5頁
資源描述:

《web頁面細(xì)粒度數(shù)據(jù)抽取方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、2014年2月計(jì)算機(jī)工程與設(shè)計(jì)Feb.2014第35卷第2期COMPUTERENGINEERINGANDDESIGNVo1.35No.2Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究王旭仁,楊碩,何發(fā)鎂,王彥麗,張為群。(1.首都師范大學(xué)信息工程學(xué)院,北京100048;2.北京理工大學(xué)圖書館,北京100081;3.西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶400715)摘要:盡管有很多方法用于Web頁面信息抽取,對(duì)細(xì)粒度信息如數(shù)據(jù)項(xiàng)等的抽取需求仍然很迫切。提出了一個(gè)用于結(jié)構(gòu)化數(shù)據(jù)抽取的解決方案,將Web頁面上的信息以更細(xì)的粒度抽取出來。對(duì)包裝器(wrapper)生成時(shí)所依據(jù)的信息進(jìn)行了基于穩(wěn)定性的分

2、類,實(shí)現(xiàn)了模板和種子之間多對(duì)多的自動(dòng)關(guān)聯(lián)(automaticallycorrelating),并按照信息穩(wěn)定性的高低為每個(gè)字段生成多個(gè)抽取規(guī)則,在抽取信息時(shí)根據(jù)多個(gè)抽取規(guī)則進(jìn)行抽取,只有在所有規(guī)則失效時(shí)才會(huì)導(dǎo)致抽取失敗,提高了抽取系統(tǒng)的魯棒性。實(shí)驗(yàn)結(jié)果表明,該方法具有良好的抽取功率和準(zhǔn)確率。關(guān)鍵詞:信息抽??;web挖掘;包裝器;自動(dòng)關(guān)聯(lián)中圖法分類號(hào):TP391.3文獻(xiàn)標(biāo)識(shí)號(hào):A文章編號(hào):1000—7024(2014)02—0700—05Researchoffiner—grainedWebinformationextractionmethodWANGXu-ren,YANGShuo

3、,HEFa-mei,WANGYan-li,ZHANGWei—qun。(1.InformationEngineeringCollege,CapitalNormalUniversity,Beijing100048,China;2.Library,BeijingInstituteofTechnology,Beijing100081,China;3.ComputerScienceCollege,SouthwestUniversity,Chongqing400715,China)Abstract:Althoughtherearemanyapproachesfordataextractio

4、nfromwebpages,demandforfiner-grainedinformation,suchasiteminformation,isstillurgingespeciallyinorienteddomainsapplications.Asolutionisproposedforstructureddataextrac—tionfromwebpages.Systemcharacteristicsareinthefollowingaspects:generatingthewrapperonthebasisofinformationbasedOl3.stabilitycl

5、assification.Thetemplatesandtheseedsofthemany-to-manyrelationshipsinautomaticwayarerealized。AccordingtOtheinformationstabilitylevelforeachfield,multipleextractionrulesaregenerated.Onlywhenallrulesfail,itisregardedasextractionfailure.Allabovefeaturesimproveextractionsystemrobustness.Experimen

6、talresultsshowthatthemethodhasgoodextractionsuccessfulrateandaccuraterate.Keywords:informationextraction;Webdatamining;wrapper;automaticallycorrelating些系統(tǒng)_7,印只能區(qū)分Web頁面中的記錄或者抽取到記錄的0引言內(nèi)容,沒有對(duì)記錄(records)包含內(nèi)容中更小信息單位Web數(shù)據(jù)挖掘[1]重要的基礎(chǔ)研究?jī)?nèi)容之一是Web頁面一字段/數(shù)據(jù)項(xiàng)(items)作進(jìn)一步分析,抽取的信息粒度數(shù)據(jù)抽取,目前已經(jīng)有一些Web數(shù)據(jù)自動(dòng)抽取方法¨2]和

7、比較粗,不能適應(yīng)對(duì)字段分析要求較高的領(lǐng)域應(yīng)用需要,系統(tǒng)_4如Omini,RoadRunner,IEPAD,MDR,DEPAT例如機(jī)票搜索、房產(chǎn)信息查詢等廣泛行業(yè)應(yīng)用。等¨5]。文獻(xiàn)[6]提出了一種基于隱馬爾可夫模型的中文科以當(dāng)下熱門的房產(chǎn)數(shù)據(jù)搜索為研究對(duì)象,抽取Web字研論文頭部信息和引文信息抽取算法,僅在局部進(jìn)行歸一段級(jí)的數(shù)據(jù),實(shí)現(xiàn)細(xì)粒度、穩(wěn)定性好的Web數(shù)據(jù)抽取方化處理。文獻(xiàn)[7]采用條件隨機(jī)場(chǎng)(conditionalrandom法。對(duì)來自不同房產(chǎn)網(wǎng)站的大量頁面進(jìn)行觀察分析后發(fā)現(xiàn):fie

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。