Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究-論文.pdf

ID：53752225

大小：845.41 KB

頁數(shù)：5頁

時間：2020-04-23

Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究-論文.pdf_第1頁

Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究-論文.pdf_第2頁

Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究-論文.pdf_第3頁

Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究-論文.pdf_第4頁

Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究-論文.pdf_第5頁

資源描述：

《Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究-論文.pdf》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、2014年2月計算機工程與設(shè)計Feb．2014第35卷第2期COMPUTERENGINEERINGANDDESIGNVo1．35No．2Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究王旭仁，楊碩，何發(fā)鎂，王彥麗，張為群。(1．首都師范大學(xué)信息工程學(xué)院，北京100048；2．北京理工大學(xué)圖書館，北京100081；3．西南大學(xué)計算機與信息科學(xué)學(xué)院，重慶400715)摘要：盡管有很多方法用于Web頁面信息抽取，對細(xì)粒度信息如數(shù)據(jù)項等的抽取需求仍然很迫切。提出了一個用于結(jié)構(gòu)化數(shù)據(jù)抽取的解決方案，將Web頁面上的信息以更細(xì)的粒度抽取出來。對包裝器(

2、wrapper)生成時所依據(jù)的信息進(jìn)行了基于穩(wěn)定性的分類，實現(xiàn)了模板和種子之間多對多的自動關(guān)聯(lián)(automaticallycorrelating)，并按照信息穩(wěn)定性的高低為每個字段生成多個抽取規(guī)則，在抽取信息時根據(jù)多個抽取規(guī)則進(jìn)行抽取，只有在所有規(guī)則失效時才會導(dǎo)致抽取失敗，提高了抽取系統(tǒng)的魯棒性。實驗結(jié)果表明，該方法具有良好的抽取功率和準(zhǔn)確率。關(guān)鍵詞：信息抽??；web挖掘；包裝器；自動關(guān)聯(lián)中圖法分類號：TP391．3文獻(xiàn)標(biāo)識號：A文章編號：1000—7024(2014)02—0700—05Researchoffiner—gr

3、ainedWebinformationextractionmethodWANGXu-ren，YANGShuo，HEFa-mei，WANGYan-li，ZHANGWei—qun。(1．InformationEngineeringCollege，CapitalNormalUniversity，Beijing100048，China；2．Library，BeijingInstituteofTechnology，Beijing100081，China；3．ComputerScienceCollege，SouthwestUnivers

4、ity，Chongqing400715，China)Abstract：Althoughtherearemanyapproachesfordataextractionfromwebpages，demandforfiner-grainedinformation，suchasiteminformation，isstillurgingespeciallyinorienteddomainsapplications．Asolutionisproposedforstructureddataextrac—tionfromwebpages．S

5、ystemcharacteristicsareinthefollowingaspects：generatingthewrapperonthebasisofinformationbasedOl3．stabilityclassification．Thetemplatesandtheseedsofthemany-to-manyrelationshipsinautomaticwayarerealized。AccordingtOtheinformationstabilitylevelforeachfield，multipleextra

6、ctionrulesaregenerated．Onlywhenallrulesfail，itisregardedasextractionfailure．Allabovefeaturesimproveextractionsystemrobustness．Experimentalresultsshowthatthemethodhasgoodextractionsuccessfulrateandaccuraterate．Keywords：informationextraction；Webdatamining；wrapper；aut

7、omaticallycorrelating些系統(tǒng)_7，印只能區(qū)分Web頁面中的記錄或者抽取到記錄的0引言內(nèi)容，沒有對記錄(records)包含內(nèi)容中更小信息單位Web數(shù)據(jù)挖掘[1]重要的基礎(chǔ)研究內(nèi)容之一是Web頁面一字段／數(shù)據(jù)項(items)作進(jìn)一步分析，抽取的信息粒度數(shù)據(jù)抽取，目前已經(jīng)有一些Web數(shù)據(jù)自動抽取方法¨2]和比較粗，不能適應(yīng)對字段分析要求較高的領(lǐng)域應(yīng)用需要，系統(tǒng)_4如Omini，RoadRunner，IEPAD，MDR，DEPAT例如機票搜索、房產(chǎn)信息查詢等廣泛行業(yè)應(yīng)用。等¨5]。文獻(xiàn)[6]提出了一種基于隱馬爾

8、可夫模型的中文科以當(dāng)下熱門的房產(chǎn)數(shù)據(jù)搜索為研究對象，抽取Web字研論文頭部信息和引文信息抽取算法，僅在局部進(jìn)行歸一段級的數(shù)據(jù)，實現(xiàn)細(xì)粒度、穩(wěn)定性好的Web數(shù)據(jù)抽取方化處理。文獻(xiàn)[7]采用條件隨機場(conditionalrandom法。對來自不同房產(chǎn)網(wǎng)站的大量頁面進(jìn)行觀察分析后發(fā)現(xiàn)：fie

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究-論文.pdf

Web頁面細(xì)粒度數(shù)據(jù)抽取方法研究-論文.pdf

相關(guān)文章

相關(guān)標(biāo)簽