基于擴(kuò)展領(lǐng)域模型的有名屬性抽取

基于擴(kuò)展領(lǐng)域模型的有名屬性抽取

ID:26536895

大?。?.20 MB

頁(yè)數(shù):7頁(yè)

時(shí)間:2018-11-27

基于擴(kuò)展領(lǐng)域模型的有名屬性抽取_第1頁(yè)
基于擴(kuò)展領(lǐng)域模型的有名屬性抽取_第2頁(yè)
基于擴(kuò)展領(lǐng)域模型的有名屬性抽取_第3頁(yè)
基于擴(kuò)展領(lǐng)域模型的有名屬性抽取_第4頁(yè)
基于擴(kuò)展領(lǐng)域模型的有名屬性抽取_第5頁(yè)
資源描述:

《基于擴(kuò)展領(lǐng)域模型的有名屬性抽取》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、基于擴(kuò)展領(lǐng)域模型的有名屬性抽取*本研究得到國(guó)家自然科學(xué)基金重點(diǎn)課題(項(xiàng)目編號(hào):60933005)、973國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃的項(xiàng)目資助(項(xiàng)目編號(hào):2004CB318109,2007CB311100)和863高技術(shù)研究發(fā)展計(jì)劃的項(xiàng)目資助(項(xiàng)目編號(hào):2007AA01Z441,2007AA01Z438)王宇1,2,譚松波1,廖祥文1,2,曾依靈1,21中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京,1001902中國(guó)科學(xué)院研究生院,北京,100190wangyu2005@software.ict.ac.cnExtend

2、edDomainModelBasedNamedAttributeExtractionWangYu1,2,TanSongbo1,LiaoXiangwen1,2,andZengYiling1,21InstituteofComputingTechnology,ChineseAcademyofSciences,Bejing100190,2GraduateSchoolofChineseAcademyofSciences,Bejing100190Abstract:Webinformationextractioni

3、sanimportanttaskofwebmining.Variousapplicationscouldbenefitfromtheadvancementinthisarea.Theseapplicationsincludesemanticweb,verticalsearch,sentimentanalysis,etc.Currenttechniquesrequirelotsofhumaninteractionwhichprecludetheuniversalapplicationofwebinfor

4、mationextraction.Toautomatetheextractionprocess,recentresearchworksidentifyspecificfeaturesofspecialdomainsandextractinformationbymachinelearningtechniques.However,becauseofthedependenceonspecificfeatures,itisverydifficulttoextendsuchmethodstootherdomai

5、ns.Inthispaper,thewebinformationextractionproblemisanalyzedandasubtaskisproposed.Thisnewsubtaskiscallednamedattributeextractiontask.Statisticsresultsfrommultipledatasetsprovethatnamedattributeextractiontaskcoversmorethan60%attributesinthesedomains,which

6、showtheimportanceofthissubtask.Namedattributesareattributesofobjectswhichareencodedinthename-valuepairform.Thatis,thenamesandvaluesofattributesaresettlednearbyinthewebpages.Therefore,oncethenamesofattributesarelocated,thevaluescanbeextractedautomaticall

7、y.Inthispaper,anextendeddomainmodelisproposedtosummarizeattributenamesofadomain.Andaninformationextractionmethodbasedonthismodelisdeveloped.Experimentsshowthatourmethodcanextractnamedattributesattheprecision80%,andattherecallhigherthan90%.Keyword:Inform

8、ationExtraction,AttributeExtraction,NamedAttribute,ExtendedDomainModel,VisualWebPageAnalysis摘要:網(wǎng)頁(yè)信息抽取是互聯(lián)網(wǎng)挖掘的重要課題。為了自動(dòng)化抽取過(guò)程,最新的研究利用特定領(lǐng)域的特征,通過(guò)機(jī)器學(xué)習(xí)方法對(duì)信息抽取過(guò)程進(jìn)行統(tǒng)一建模。但是,對(duì)領(lǐng)域特征的依賴使得這類方法難以被推廣到其他領(lǐng)域中去。因此,對(duì)信息抽取問(wèn)題進(jìn)行了分析,從中分離出一個(gè)可以完全自動(dòng)化的信息抽取子任務(wù),

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。