資源描述:
《web信息抽取框架技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、多馨密級:公巧■‘/*.心UDC;004.6-午.巧號1:314化''心、1社'Iif;,I;;i,叩^胃!時陶I'?^TM/in‘i紙東菊大堂暫碩±學位論文Web信息抽取框架技術(shù)研究研究生姓名:滕曉程導師姓名:崇志宏副教巧申請學位類別工學碩±學位授子,單位東南大學一級學科名稱計算機科學與技術(shù)論文答辯U期6年63201月日二級學科名稱日期2016年月日學仿巧予答辯否貴會主席周巧宇評閱人張柏禮2016年6月3I1表兩:k嗦碩±學位論
2、文Web信息抽取框架技術(shù)硏究專業(yè)名稱:計算機科學與技術(shù)研究生姓名:滕曉程導師姓名:崇志宏副教授ResearchonWebInformationExtractionFrameworkAThesisSubmited化SoutheastUniversityFortheAcademicDereeofMasterofEnineeringggBYTENG-XiaochengSuervisedbpyAssociatePro把ssorCHONG-honZhigDepartment
3、ofComputerScience&EngineeringSouthe犯tUniversityMa2016y東南大學學位論文獨創(chuàng)性黃明本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研巧成果。盡我所知,除了文中特別加W標注和致謝的地方外,論文中不包含其他人己經(jīng)發(fā)表或撰寫過。與我的研究成果I也不包含為獲得東南大學或巧它教育機構(gòu)的學位或證書而使用過的材料一同工作的同志對本硏究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。研巧生簽名:旅化4^日期:如廣東南大學學位論文使用授權(quán)聲明東南大學
4、、中國科學技術(shù)信息研究所、國家圖書館有權(quán)保留本人所送交學位論文的復?。崳?。件和電子文檔,可W采用影印本人電子文檔的內(nèi)容和紙質(zhì)、縮印或其他復制手段保存論文一,可W公布(包括論文的內(nèi)容相致。除在保密期內(nèi)的保密論文外,允許論文被查閱和借閱(W電子信息形式刊登)論文的全部內(nèi)容或中、英文揃要等部分內(nèi)容。論文的公布包括W電子信息形式刊登)授權(quán)東南大學研究生院辦理。,又研巧生簽名師簽名日期:占摘要從非結(jié)構(gòu)化和半結(jié)構(gòu)化的互聯(lián)網(wǎng)信息中抽取結(jié)構(gòu)化信息的技術(shù)廣泛應用于商業(yè)數(shù)據(jù)挖掘、社交一系列環(huán)節(jié):設定信息抽取范圍網(wǎng)絡分析和垂直捜索引拳等領域。信息結(jié)構(gòu)化包括
5、、網(wǎng)頁爬取、網(wǎng)一,進步可W分力應用依賴的和應用獨立的環(huán)頁預處理、構(gòu)建抽取規(guī)則和信息存儲、定義抽取內(nèi)容一節(jié)般框架,基本思想是設定信息抽取的范圍和內(nèi)容是框架中應用依賴的。本文提出信息結(jié)構(gòu)化的一套描述方法配置應用依賴的操作,,通過將應用獨立的環(huán)環(huán)節(jié),而其他環(huán)節(jié)具有應用獨立性設計節(jié)向開發(fā)人員屏蔽:,提高框架的通用性和應用開發(fā)效率?具體貢獻如下一1設計并實現(xiàn)了個通用的Web信息抽取框架。從信息結(jié)構(gòu)化流程中抽象出該框架,框架提()一一工程原則對框架進行總體設計的Wb,將信息供了個統(tǒng)e信息抽取模型;基于抽象和信息隱蔽的結(jié)構(gòu)化過程抽象為應用依賴的信息
6、范圍和內(nèi)容描述與應用獨立的其他環(huán)節(jié),讓開發(fā)人員配置應用依的通用性和應用開發(fā)效率。賴的操作而屏蔽應用獨立的環(huán)節(jié),提高框架一2提出并實現(xiàn)了種基于知識圖譜的詞類生成算法,并使。本文引入詞類的概念分析網(wǎng)頁主題()-,用文檔詞類向量對網(wǎng)頁分類,而手工構(gòu)建詞類比較困難。本文基于知識圖譜自動構(gòu)建有效的詞類降低了詞類構(gòu)建的難度。一(3提出并實現(xiàn)了種基于DOM節(jié)點分類的信息抽取方法。采用監(jiān)皆學習的方法構(gòu)建信息的抽),,提出了DOM節(jié)取規(guī)則,將信息抽取問題看作分類問題W信息所在的DOM節(jié)點為粒度進行分類點的樣式特征。、內(nèi)容特征和上下文特征(4)在文
7、獻[46]的數(shù)據(jù)集上進行了網(wǎng)頁分類實驗,與基準方法進行對比,實驗結(jié)果衷明本文中提出的方法在分類效果上優(yōu)于基準方案。在從Amazon等網(wǎng)站抽取的圖書信息頁面數(shù)據(jù)集上進行了,實驗結(jié)果表明,其中對圖書的標題本文提出的信息抽?。崳娦畔⒊槿嶒?、作者和價格信息進行抽取。方法能夠取得較好的效果.并且具有較好的擴展性關(guān)巧詞i信息結(jié)構(gòu)化;Web信息抽取框架:分類;知識圖譜;抽取規(guī)則:IAbstractTofanned-hetechnoloobtiistructurinformationfromsemistructuredandunstruc
8、tureddatao