資源描述:
《基于維基百科的語義web搜索技術研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、分類號:TP393520.6099密級:天津理工大學研究生學位論文基于維基百科的語義Web搜索技術研究(申請碩士學位)學科專業(yè):計算機應用技術研究方向:信息檢索作者姓名:劉朋杰指導教師:趙德新ThesisSubmittedtoTianjinUniversityofTechnologyfortheMaster’sDegreeSemanticWebsearchtechnologybasedonWikipediaByPengjieLiuSupervisorDexinZhao獨創(chuàng)性聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研
2、究工作和取得的研究成果,除了文中特別加以標注和致謝之處外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得天津理工大學或其他教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。學位論文作者簽名:簽字日期:年月日學位論文版權使用授權書本學位論文作者完全了解天津理工大學有關保留、使用學位論文的規(guī)定。特授權天津理工大學可以將學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫進行檢索,并采用影印、縮印或掃描等復制手段保存、匯編,以供查閱和借閱。同意學校向國家有關部門或機構
3、送交論文的復本和電子文件。(保密的學位論文在解密后適用本授權說明)學位論文作者簽名:導師簽名:摘要目前的Web搜索技術是基于關鍵詞的搜索,信息的查全率和精確度仍然不能滿足用戶的需求,其效果常常不能使人滿意。這是由于在Web搜索過程中,缺乏搜索引擎可讀的語義信息,因而限制了計算機自動分析處理以及進一步的智能化處理的能力。因此,為了提高搜索引擎檢索信息的精準度和智能性,傳統(tǒng)的基于關鍵字的搜索引擎要向更智能的語義檢索方向發(fā)展。語義搜索要有一個概念的語義空間網(wǎng)絡作為支撐,維基百科(Wikipedia)是一個開放式的在線百科全書,它是世
4、界最大的包含了大量人類知識和語義關系的知識庫資源。如何充分利用維基百科的知識,為現(xiàn)有的搜索技術添加語義處理能力,優(yōu)化信息檢索過程,即成為本論文的研究課題。本文主要的工作如下:首先,針對維基百科中的信息組織及結構特點,抽取出語義信息。對維基百科數(shù)據(jù)的處理,我們應用了大數(shù)據(jù)處理的技術,構建了基于Hadoop的維基數(shù)據(jù)包處理云平臺。通過建立一套基于對象模型的應用程序接口,得到了維基百科主題頁面中我們感興趣的語義信息,包括概念、類別、鏈接、摘要段(主題頁面的第一段),這為后續(xù)的語義相關度計算提供了必要的結構性和內(nèi)涵性信息。本文的處理技
5、術還能為以后的維基百科大數(shù)據(jù)處理提供借鑒。其次,提出了一種計算詞條語義相關度的新方法,稱為WLA算法(WikipediaLinkandAbstract)。在上述對維基百科抽取出相關信息的基礎上,我們重點研究了鏈接關系和摘要段的內(nèi)容。鏈接關系(包括入鏈和出鏈)與摘要段公共詞的特征能很好地反映出概念之間的聯(lián)系,通過對其分別賦以不同的權重,實驗結果顯示W(wǎng)LA的Spearman相關系數(shù)達到了0.68,取得了令人滿意的結果。最后,開發(fā)了語義搜索系統(tǒng)的原型。將我們提出的WLA算法集成到系統(tǒng)中,實現(xiàn)了能夠提供普通用戶和語義研究人員進行語義搜
6、索的平臺。該搜索系統(tǒng)以維基百科對詞語的解釋為背景知識,包括語義計算,語義概念查詢和文本注釋三大功能。語義計算功能可計算出詞條語義相關性;語義概念查詢系統(tǒng)提供基于維基百科的語義詞典功能,對偏生詞,多義詞,歧義詞進行語義解釋,可以幫助用戶擴展知識,能夠增強搜索引擎處理查詢的能力;文本注釋功能對短文本中的專有名稱進行注解,只要文本中的詞條在維基百科有與之對應的主題頁面,那么系統(tǒng)會對該詞條進行注解并加入鏈接功能。該原型可作為語義搜索相關研究的測試平臺。關鍵詞:維基百科語義計算搜索引擎AbstractBecausethecurrentW
7、ebsearchtechnologyisbasedonkeywords,itoftenfailstomeetuser’sneedsduetoinformation’srecallratioandaccuracyfarbelowpeople’sexpectancy.ForlackingofreadablesemanticinformationduringWebsearch,thereforeitlimitstheabilityofcomputertoautomaticallyanalyzeandfurtherprocessint
8、elligently.Thence,aimingatimprovingtheaccuracyandintelligenceofsearchengine,wewouldliketoshiftoursearchenginefromatraditionalbasedonkeywor