資源描述:
《領域依賴的web信息抽取系統設計與實現》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、學巧代辟-:102化分類號:TPWUDC.:0049學號:133133與^-**W*?V—知;詢可繼幫議I凈’東兩大凈巧工程碩±學位論文領域依賴的Web信息抽取系統設計與實現(學位論文形式:應用研究)研究生姓名:陳巧挖?導師姓名:崇志宏副教授彭艷兵高工申請學位類別工程碩±學位授予單位東南大學工程領域名稱計算機技術論文答辯日期2016年6月3日研究方向計算機應用技術學化巧予日期20年月日答辯委員會主席g玉慶評閱人徐立致盧山2016年
2、63n表兩扛f碩壬學位論文領域依賴的Web信息抽取系統設計與實現專業(yè)名務;計算機技術研究生姓名:陳茂格導師姓名:崇志宏副教授彭艷兵高工TheDesinandImlementationofgpDomainDeendentWebInformationpExtractionSys1:emAThesisSubmitedtoSoutheastUniversityFortheAcademicDereeofMasterofEnineeringggBYCHEN
3、Mao-rongSupervisedbyAssocterosorh-iaPfesCHONGZihongSenneern-iorEngiPENGYabing-MonashSoutheastUniversityUniversityJointGraduateSchoolSoutheastUniversityMa2016y東南大學學位論文獨謝性再明本人聲明所呈交的學位論文是我個人在導師指導下進行的研巧工作及取得的研究成果。盡我所知,除了文中特別加W標法和致謝的地方外,論文中不包含其他人己經發(fā)表或撰
4、寫過的研巧成果,也不包當為獲得東南大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。^研巧生簽名:':zi(.衣梅日期)5巧l東南大學學位論文使用授權聲明東南大學、中國科學技術信息研巧所、國家圖書館有權保留本人所送交學位論文的復?。崳娂碗娮游臋n、,可W采用影印縮印或其他復制手段保存論文。本人電子文檔的內容和紙質一致論文的內容相。除在保密期內的保密論文外,允許論文被畜閱和借閱,可W公布(包括W電子信息形式刊登)論文的全部內容或中、英文摘耍等部分內
5、容。論文的公布(包括W電子信息形式刊登)授權東南大學研究生院辦理。硏巧生簽名:師簽名日期:2,LL^I摘要從非結構化網頁中提取結構化信息的Web信息抽取技術廣泛應用于商務智能、輿情分析和評論挖掘等領域。通過領域知識的應用提高信息抽取的準確性和抽取結果的可讀性是當前的研巧熱點。由于本體具有清晰的層次體系結構和較好的可拓展性,目前被廣泛應用于信息抽取領域,但利用本體進行信息抽取還需要解決:I)控制領域本體構建復雜度的問題;2)集成知識工程方法而導致的可移植性問題;3)領域本體在信息抽取中的不充分利用問題。本文的基本思路
6、是通過對本體進行語義拓展W構建模糊領域本體,從而控制領域本體構建的復雜度;為實現語義巧展,給出語義模糊集的定義及其拓展方法。為提升信息抽取的準確性,提出領域依賴的Web信息抽取方法,將W模糊領域本體表示的領域知識應用于機器學習方法,在提高抽取質量的同時有效提升抽取方法的可移,為更好地利用本體的語義關系信息植性。此外,設計基于本體的抽取結果優(yōu)化算法。本文的主要工作如下:1給出語義模糊集與模糊領域本體的構建方法()。為控制本體構建的復雜度,對本體,W構建模糊領域本體。為實現語義巧展中的概念和屬性等信息進行語義拓展,給出語義模糊
7、集的定義,并提出基于Word2Vec的語義模糊集拓展方法。(2)提出領域依賴的Web信息抽取方法。為提升信息抽取的準確性,W模糊領域本體為知識表示方式,提出領域依賴的Web信息抽取方法,將領域知識應用于機器學習方法的特征工程中,在提高抽取質量的同時有效提丹抽取方法的可移植性。(3)設計基于本體的抽取結果優(yōu)化算法。為更充分地發(fā)揮本體在信息抽取中的作用,根據多層分類與結構化學習的思想,利用本體中概念間的語義關系信息,設計基于本體的抽取結果優(yōu)化算法,對抽取結果進行優(yōu)化。(4構建領域依賴的Web信息抽取原型系統,并對其進行有效性評估。
8、根據領域依)賴的Web信息抽取方法,進行原型系統的設計與實現。通過在實際數據