資源描述:
《基于本體信息檢索的研究和應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號密級UDC學(xué)位論文基于本體的信息檢索的研究與應(yīng)用(題名和副題名)周艷(作者姓名)指導(dǎo)教師姓名屈鴻講師博士電子科技大學(xué)(職務(wù)、職稱、學(xué)位、單位名稱及地址)申請學(xué)位級別碩士專業(yè)名稱軟件工程論文提交日期2010年1月20日論文答辯日期2010年5月22日學(xué)位授予單位和日期電子科技大學(xué)答辯委員會主席評閱人年月日注1注明《國際十進(jìn)分類法UDC》的類號獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大
2、學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。簽名:周艷日期:年月日關(guān)于論文使用授權(quán)的說明本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)簽名:周艷導(dǎo)師簽名:日期:年月日摘要摘要隨著英特網(wǎng)的快速發(fā)展,我們能獲取的信
3、息正在以指數(shù)增長。但與此同時,人們常常發(fā)現(xiàn)自己迷失在信息的海洋中。如何在海量的信息中高效地檢索出所需的信息,是信息檢索所要研究的問題。絕大多數(shù)傳統(tǒng)的信息檢索系統(tǒng)基于語法層上的機(jī)械式的關(guān)鍵詞匹配技術(shù)。由于機(jī)器無法理解信息的語義,這種技術(shù)存在著查全率和查準(zhǔn)率偏低的問題。為了解決這一問題,人們提出了語義檢索的構(gòu)想,其基礎(chǔ)就是本體的概念。在計算機(jī)科學(xué)和信息科學(xué)中,本體代表了某一領(lǐng)域內(nèi)的一系列概念和這些概念之間的關(guān)系。它用于推理這一領(lǐng)域內(nèi)的性質(zhì),也可以用于定義該領(lǐng)域。本文的第二章詳細(xì)討論了本體的概念和含義,本體的分類,本體的描述方式以及本體的構(gòu)建原則。
4、本文的第三章提出了一種基于本體的信息檢索系統(tǒng)的框架。該信息檢索系統(tǒng)由四個模塊構(gòu)成,分別是用戶界面模塊、查詢模塊、本體管理模塊和資源管理模塊。而在第四章中,本文深入研究了該信息檢索系統(tǒng)中涉及的關(guān)鍵技術(shù),包括本體的構(gòu)建方法,檢索入口設(shè)計,檢索預(yù)處理器設(shè)計,本體推理機(jī)的應(yīng)用和檢索詞的語義擴(kuò)展。最后,本文建立了一個腫瘤病理學(xué)領(lǐng)域本體,并在該領(lǐng)域本體的基礎(chǔ)上開發(fā)了一個期刊論文檢索系統(tǒng)。初步的實驗顯示,該系統(tǒng)能夠提高信息檢索的質(zhì)量和效率。關(guān)鍵詞:本體,信息檢索,語義擴(kuò)展,腫瘤病理學(xué)I目錄ABSTRACTWiththefastdevelopmentofth
5、eInternet,theamountofinformationwecangetisgrowingatanexponentialrate.Atthesametime,peopleusuallyfindthemselveslostintheoceanofinformation.Informationretrievalconcernshowtoefficientlyretrieverequiredinformationfromhugeamountofinformation.Mostofthetraditionalinformationretrie
6、valsystemsarebasedonthemechanicalkeywordmatchingtechniqueinthesyntaxlayer.Becausemachinesdonotunderstandthesemanticsofinformation,therecallratioandtheprecisionratioareinadequate.Tosolvethisproblem,theideaofsemanticinformationretrievalwasputforward,whosefoundationistheconcep
7、tofontology.Incomputerscienceandinformationscience,anontologyisaformalrepresentationofasetofconceptswithinadomainandtherelationshipsbetweenthoseconcepts.Itisusedtoreasonaboutthepropertiesofthatdomain,andmaybeusedtodefinethedomain.Inthe2ndchapterofthisthesis,manytopicsononto
8、logyarediscussed,includingtheconceptandthemeaning,theclassification,themethodforde