領域依賴的web信息抽取系統設計與實現

領域依賴的web信息抽取系統設計與實現

ID:35102690

大小:7.14 MB

頁數:61頁

時間:2019-03-17

領域依賴的web信息抽取系統設計與實現_第1頁
領域依賴的web信息抽取系統設計與實現_第2頁
領域依賴的web信息抽取系統設計與實現_第3頁
領域依賴的web信息抽取系統設計與實現_第4頁
領域依賴的web信息抽取系統設計與實現_第5頁
資源描述:

《領域依賴的web信息抽取系統設計與實現》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、學巧代辟-:102化分類號:TPWUDC.:0049學號:133133與^-**W*?V—知;詢可繼幫議I凈’東兩大凈巧工程碩±學位論文領域依賴的Web信息抽取系統設計與實現(學位論文形式:應用研究)研究生姓名:陳巧挖?導師姓名:崇志宏副教授彭艷兵高工申請學位類別工程碩±學位授予單位東南大學工程領域名稱計算機技術論文答辯日期2016年6月3日研究方向計算機應用技術學化巧予日期20年月日答辯委員會主席g玉慶評閱人徐立致盧山2016年

2、63n表兩扛f碩壬學位論文領域依賴的Web信息抽取系統設計與實現專業(yè)名務;計算機技術研究生姓名:陳茂格導師姓名:崇志宏副教授彭艷兵高工TheDesinandImlementationofgpDomainDeendentWebInformationpExtractionSys1:emAThesisSubmitedtoSoutheastUniversityFortheAcademicDereeofMasterofEnineeringggBYCHEN

3、Mao-rongSupervisedbyAssocterosorh-iaPfesCHONGZihongSenneern-iorEngiPENGYabing-MonashSoutheastUniversityUniversityJointGraduateSchoolSoutheastUniversityMa2016y東南大學學位論文獨謝性再明本人聲明所呈交的學位論文是我個人在導師指導下進行的研巧工作及取得的研究成果。盡我所知,除了文中特別加W標法和致謝的地方外,論文中不包含其他人己經發(fā)表或撰

4、寫過的研巧成果,也不包當為獲得東南大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。^研巧生簽名:':zi(.衣梅日期)5巧l東南大學學位論文使用授權聲明東南大學、中國科學技術信息研巧所、國家圖書館有權保留本人所送交學位論文的復?。崳娂碗娮游臋n、,可W采用影印縮印或其他復制手段保存論文。本人電子文檔的內容和紙質一致論文的內容相。除在保密期內的保密論文外,允許論文被畜閱和借閱,可W公布(包括W電子信息形式刊登)論文的全部內容或中、英文摘耍等部分內

5、容。論文的公布(包括W電子信息形式刊登)授權東南大學研究生院辦理。硏巧生簽名:師簽名日期:2,LL^I摘要從非結構化網頁中提取結構化信息的Web信息抽取技術廣泛應用于商務智能、輿情分析和評論挖掘等領域。通過領域知識的應用提高信息抽取的準確性和抽取結果的可讀性是當前的研巧熱點。由于本體具有清晰的層次體系結構和較好的可拓展性,目前被廣泛應用于信息抽取領域,但利用本體進行信息抽取還需要解決:I)控制領域本體構建復雜度的問題;2)集成知識工程方法而導致的可移植性問題;3)領域本體在信息抽取中的不充分利用問題。本文的基本思路

6、是通過對本體進行語義拓展W構建模糊領域本體,從而控制領域本體構建的復雜度;為實現語義巧展,給出語義模糊集的定義及其拓展方法。為提升信息抽取的準確性,提出領域依賴的Web信息抽取方法,將W模糊領域本體表示的領域知識應用于機器學習方法,在提高抽取質量的同時有效提升抽取方法的可移,為更好地利用本體的語義關系信息植性。此外,設計基于本體的抽取結果優(yōu)化算法。本文的主要工作如下:1給出語義模糊集與模糊領域本體的構建方法()。為控制本體構建的復雜度,對本體,W構建模糊領域本體。為實現語義巧展中的概念和屬性等信息進行語義拓展,給出語義模糊

7、集的定義,并提出基于Word2Vec的語義模糊集拓展方法。(2)提出領域依賴的Web信息抽取方法。為提升信息抽取的準確性,W模糊領域本體為知識表示方式,提出領域依賴的Web信息抽取方法,將領域知識應用于機器學習方法的特征工程中,在提高抽取質量的同時有效提丹抽取方法的可移植性。(3)設計基于本體的抽取結果優(yōu)化算法。為更充分地發(fā)揮本體在信息抽取中的作用,根據多層分類與結構化學習的思想,利用本體中概念間的語義關系信息,設計基于本體的抽取結果優(yōu)化算法,對抽取結果進行優(yōu)化。(4構建領域依賴的Web信息抽取原型系統,并對其進行有效性評估。

8、根據領域依)賴的Web信息抽取方法,進行原型系統的設計與實現。通過在實際數據

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯系客服處理。