web信息抽取框架技術(shù)研究

web信息抽取框架技術(shù)研究

ID:35105107

大?。?.52 MB

頁數(shù):66頁

時間:2019-03-18

web信息抽取框架技術(shù)研究_第1頁
web信息抽取框架技術(shù)研究_第2頁
web信息抽取框架技術(shù)研究_第3頁
web信息抽取框架技術(shù)研究_第4頁
web信息抽取框架技術(shù)研究_第5頁
資源描述:

《web信息抽取框架技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、多馨密級:公巧■‘/*.心UDC;004.6-午.巧號1:314化''心、1社'Iif;,I;;i,叩^胃!時陶I'?^TM/in‘i紙東菊大堂暫碩±學位論文Web信息抽取框架技術(shù)研究研究生姓名:滕曉程導師姓名:崇志宏副教巧申請學位類別工學碩±學位授子,單位東南大學一級學科名稱計算機科學與技術(shù)論文答辯U期6年63201月日二級學科名稱日期2016年月日學仿巧予答辯否貴會主席周巧宇評閱人張柏禮2016年6月3I1表兩:k嗦碩±學位論

2、文Web信息抽取框架技術(shù)硏究專業(yè)名稱:計算機科學與技術(shù)研究生姓名:滕曉程導師姓名:崇志宏副教授ResearchonWebInformationExtractionFrameworkAThesisSubmited化SoutheastUniversityFortheAcademicDereeofMasterofEnineeringggBYTENG-XiaochengSuervisedbpyAssociatePro把ssorCHONG-honZhigDepartment

3、ofComputerScience&EngineeringSouthe犯tUniversityMa2016y東南大學學位論文獨創(chuàng)性黃明本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研巧成果。盡我所知,除了文中特別加W標注和致謝的地方外,論文中不包含其他人己經(jīng)發(fā)表或撰寫過。與我的研究成果I也不包含為獲得東南大學或巧它教育機構(gòu)的學位或證書而使用過的材料一同工作的同志對本硏究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。研巧生簽名:旅化4^日期:如廣東南大學學位論文使用授權(quán)聲明東南大學

4、、中國科學技術(shù)信息研究所、國家圖書館有權(quán)保留本人所送交學位論文的復?。崳?。件和電子文檔,可W采用影印本人電子文檔的內(nèi)容和紙質(zhì)、縮印或其他復制手段保存論文一,可W公布(包括論文的內(nèi)容相致。除在保密期內(nèi)的保密論文外,允許論文被查閱和借閱(W電子信息形式刊登)論文的全部內(nèi)容或中、英文揃要等部分內(nèi)容。論文的公布包括W電子信息形式刊登)授權(quán)東南大學研究生院辦理。,又研巧生簽名師簽名日期:占摘要從非結(jié)構(gòu)化和半結(jié)構(gòu)化的互聯(lián)網(wǎng)信息中抽取結(jié)構(gòu)化信息的技術(shù)廣泛應用于商業(yè)數(shù)據(jù)挖掘、社交一系列環(huán)節(jié):設定信息抽取范圍網(wǎng)絡分析和垂直捜索引拳等領域。信息結(jié)構(gòu)化包括

5、、網(wǎng)頁爬取、網(wǎng)一,進步可W分力應用依賴的和應用獨立的環(huán)頁預處理、構(gòu)建抽取規(guī)則和信息存儲、定義抽取內(nèi)容一節(jié)般框架,基本思想是設定信息抽取的范圍和內(nèi)容是框架中應用依賴的。本文提出信息結(jié)構(gòu)化的一套描述方法配置應用依賴的操作,,通過將應用獨立的環(huán)環(huán)節(jié),而其他環(huán)節(jié)具有應用獨立性設計節(jié)向開發(fā)人員屏蔽:,提高框架的通用性和應用開發(fā)效率?具體貢獻如下一1設計并實現(xiàn)了個通用的Web信息抽取框架。從信息結(jié)構(gòu)化流程中抽象出該框架,框架提()一一工程原則對框架進行總體設計的Wb,將信息供了個統(tǒng)e信息抽取模型;基于抽象和信息隱蔽的結(jié)構(gòu)化過程抽象為應用依賴的信息

6、范圍和內(nèi)容描述與應用獨立的其他環(huán)節(jié),讓開發(fā)人員配置應用依的通用性和應用開發(fā)效率。賴的操作而屏蔽應用獨立的環(huán)節(jié),提高框架一2提出并實現(xiàn)了種基于知識圖譜的詞類生成算法,并使。本文引入詞類的概念分析網(wǎng)頁主題()-,用文檔詞類向量對網(wǎng)頁分類,而手工構(gòu)建詞類比較困難。本文基于知識圖譜自動構(gòu)建有效的詞類降低了詞類構(gòu)建的難度。一(3提出并實現(xiàn)了種基于DOM節(jié)點分類的信息抽取方法。采用監(jiān)皆學習的方法構(gòu)建信息的抽),,提出了DOM節(jié)取規(guī)則,將信息抽取問題看作分類問題W信息所在的DOM節(jié)點為粒度進行分類點的樣式特征。、內(nèi)容特征和上下文特征(4)在文

7、獻[46]的數(shù)據(jù)集上進行了網(wǎng)頁分類實驗,與基準方法進行對比,實驗結(jié)果衷明本文中提出的方法在分類效果上優(yōu)于基準方案。在從Amazon等網(wǎng)站抽取的圖書信息頁面數(shù)據(jù)集上進行了,實驗結(jié)果表明,其中對圖書的標題本文提出的信息抽?。崳娦畔⒊槿嶒?、作者和價格信息進行抽取。方法能夠取得較好的效果.并且具有較好的擴展性關(guān)巧詞i信息結(jié)構(gòu)化;Web信息抽取框架:分類;知識圖譜;抽取規(guī)則:IAbstractTofanned-hetechnoloobtiistructurinformationfromsemistructuredandunstruc

8、tureddatao

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。