基于本體web信息抽取及本體構(gòu)建實現(xiàn)與研究報告

ID：27755343

大?。?16.00 KB

頁數(shù)：8頁

時間：2018-12-05

資源描述：

《基于本體web信息抽取及本體構(gòu)建實現(xiàn)與研究報告》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、基于本體的web信息抽取及本體的構(gòu)建實現(xiàn)研究賈賽1，喬鴻2（1．山東師范大學(xué)管理與經(jīng)濟(jì)學(xué)院管理科學(xué)與工程系，山東濟(jì)南250014；2．山東師范大學(xué)管理與經(jīng)濟(jì)學(xué)院管理科學(xué)與工程系，山東濟(jì)南250014）摘要：基于本體的web信息抽取技術(shù)是一種當(dāng)前熱門的信息技術(shù)，對比兩種基于本體的web信息抽取模型，為用戶和應(yīng)用程序服務(wù)；之后從本體構(gòu)建的角度對他們進(jìn)行微博人物信息實例分析，本體的設(shè)計與實現(xiàn)都是對他們的權(quán)衡指標(biāo)，指導(dǎo)信息抽取行為。關(guān)鍵字：web信息抽?。槐倔w；抽取模型；微博中圖分類號：TP393Ontology-BasedInformationExtractionfromWebSou

2、rcesandRealizationofOntologyConstructionJIASai1,QIAOHong2(1.SchoolofManagementandEconomics,ShandongNormalUniversity,JinanShandong250014,China;2.SchoolofManagementandEconomics,ShandongNormalUniversity,JinanShandong250014,China)Abstract:Thetechnologyofontology-basedinformationextractionisoneof

3、thecurrentpopularinformationtechnologytocontrastthetwomodelsofontology-basedinformationextractionfortheuserandapplicationservice.Thenfromtheangleofontologyconstructionwecanusetheinstanceanalysisofmicroblogpersonalinformationtobalancethedesignandrealizationofontologymethod,directactivityofinf

4、ormationextraction.Keywords:WebInformationExtraction;Ontology;ExtractionModel;MicroBlog資料可以看到，在信息時代的今天，信息的增長速度已經(jīng)是讓我們瞠目結(jié)舌，隨著web的發(fā)展，在web上的各種各樣的信息也以不同的形式分布，我們該如何在這些繁多的，無結(jié)構(gòu)的web信息中找到我們真正需要的，就成了我們現(xiàn)在急需要解決的問題；web信息抽取就是為了這個目的而存在，把web中的信息變成結(jié)構(gòu)化的，更有語義的模式結(jié)構(gòu)。而在web信息抽取技術(shù)中，基于本體的web信息抽取是其中一個比較重要的方向，它的實現(xiàn)可以幫助用

5、戶更方便地在信息海洋中找到自己需要的信息，減少應(yīng)用程序的資源浪費(fèi)，適合人們的需求。1相關(guān)概念1．1本體本體（Ontology）的概念最初起源于哲學(xué)領(lǐng)域，20世紀(jì)70年代末JohnMcCarthy將這個哲學(xué)術(shù)語引入到計算機(jī)領(lǐng)域，在人工智能界，最早給Ontology定義的是Neches等人。他們將Ontology定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系，以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則定義”。1993年，Gruber給出了Ontology的一個最為流行的定義[1-2]，即“Ontology是概念模型的明確規(guī)范說明”。Ontology的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識，

6、提出供該領(lǐng)域知識的共同理解，確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯，并從不同的層次的形式化模式上給出這些詞匯(術(shù)語)和詞匯間相互關(guān)系的明確定義。1．2領(lǐng)域本體領(lǐng)域本體(Domain資料Ontology)，是專業(yè)性的本體，描述的是特定領(lǐng)域中的概念和概念之間的關(guān)系，提供了某個專業(yè)學(xué)科領(lǐng)域中概念的詞表以及概念間的關(guān)系，或在該領(lǐng)域里占主導(dǎo)地位的理論，能夠獨(dú)立的存在和被使用。1．3web信息抽取web信息抽取(WebInformationExtraction)是將web作為信息源的一類信息抽取。簡單的說，web信息抽取是指從web頁面中抽取用戶感興趣的信息而過濾掉不相關(guān)的信息，具體的是指研究如何將分

7、散在半結(jié)構(gòu)化web頁面中的信息提取出來，并以結(jié)構(gòu)化、語義更為清晰的模式表示，它為用戶在web中查詢數(shù)據(jù)、應(yīng)用程序直接利用web數(shù)據(jù)提供了便利[3]。輸入信息抽取系統(tǒng)的是原始文本，輸出的是固定格式的信息點(diǎn)。其主要功能就是把信息點(diǎn)從各種各樣的文檔中抽取出來，然后以統(tǒng)一的形式集成在一起。2基于領(lǐng)域本體的web信息抽取這里我們研究的是基于領(lǐng)域本體的web信息抽取，這也是現(xiàn)在應(yīng)用比較廣泛，相對比較成熟的一種技術(shù)實現(xiàn)；基于領(lǐng)域本體的web信息抽取的一個重要特點(diǎn)是具有較強(qiáng)的針對性，被抽取的通常是某個特定的

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 8



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于本體web信息抽取及本體構(gòu)建實現(xiàn)與研究報告

基于本體web信息抽取及本體構(gòu)建實現(xiàn)與研究報告

相關(guān)文章

相關(guān)標(biāo)簽