資源描述:
《基于實體屬性的中文網(wǎng)頁檢索研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、博士研究生學位論文基于實體屬性的中文網(wǎng)頁檢索研究姓名:昝紅英學號:10108835院系:信息科學技術學院專業(yè):計算機軟件與理論研究方向:自然語言處理導師:俞士汶教授孫斌副教授二〇〇四年五月StudiesontheInformationRetrievalofChineseWebPagesBasedontheEntities’AttributesDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementforthedegre
2、eofDoctorofNaturalScienceByZANHongying(ComputerSoftwareanditsTheory)DissertationSupervisors:ProfessorYUShiwenAssociateProfessorSUNBinMay,2004版權聲明任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者授權,不得將本論文轉(zhuǎn)借他人并復印、抄錄、拍照、或以任何方式傳播。否則,引起有礙作者著作權益之問題,將可能承擔法律責任。摘要摘要信息檢索是在給定的用戶需求下,利用索引、匹配
3、等技術,從大量信息中識別滿足條件的信息。傳統(tǒng)的信息檢索起源于對文本資料的情報檢索,近年來因特網(wǎng)的迅猛發(fā)展,為人們提供了海量的、動態(tài)的Web網(wǎng)頁信息。針對實體網(wǎng)頁的個性化檢索,本文提出了一種有效的檢索方法。該方法將檢索問題的處理從檢索詞的機械匹配提升到實體屬性的結構化匹配,具體到實體一級對網(wǎng)頁內(nèi)容與實體屬性進行相關度的分析與計算,針對性更強,準確率更高,從而為用戶提供高效優(yōu)質(zhì)的實體網(wǎng)頁的個性化檢索服務。通過對中文名人網(wǎng)頁語料的大量調(diào)研,作者提出了名人實體信息的屬性結構,并將自然語言理解中的信息提取技術應用于中文網(wǎng)
4、頁中有關名人實體信息的提取,設計并實現(xiàn)了基于信息提取的實體網(wǎng)頁相關度評價算法和基于組合向量空間模型的實體網(wǎng)頁相關度評價算法,同時考察了影響用戶評判網(wǎng)頁相關性的多種因素,通過參數(shù)調(diào)整優(yōu)化名人實體網(wǎng)頁的相關度評價模型,并在本文中提供了翔實的實驗結果。名人實體網(wǎng)頁的相關度評價模型在天網(wǎng)知名度系統(tǒng)中得到了直接的應用,是系統(tǒng)提供名人實體網(wǎng)頁個性化檢索服務的技術核心。天網(wǎng)知名度系統(tǒng)目前已提供檢索服務,其運行結果得到了北京大學—IBM創(chuàng)新研究院的認可。本文研究工作的主要創(chuàng)新點有:?提出了一種新的網(wǎng)上信息檢索的工作模式。針對用
5、戶的個性化檢索需求,利用命名實體識別技術預先對海量網(wǎng)頁進行過濾,從而簡便高效地實現(xiàn)了根據(jù)用戶定制的實體信息對海量網(wǎng)頁的相關度評價工作;?將自然語言理解的信息提取技術用于網(wǎng)頁內(nèi)容的分析,根據(jù)網(wǎng)頁中名人實體的屬性信息特征,提出了一種加權的布爾模型,用于名人實體網(wǎng)頁的相關度評價;?在傳統(tǒng)的向量空間模型的基礎上,根據(jù)網(wǎng)頁中名人實體的屬性信息特征,設計并實現(xiàn)了一種組合的向量空間模型,從而改善了用戶注冊實體的存儲結構,方便了不同因素的權值調(diào)整,有利于提高名人實體網(wǎng)頁相關度評價的準確率;?利用中文概念詞典對用戶注冊的實體屬性
6、信息進行多個角度的擴展實驗,考察了查詢擴展后對不同領域名人實體網(wǎng)頁的相關度評價結果,細致分析了利用不同概念進行查詢擴展的優(yōu)劣。-I-北京大學博士學位論文----中文名人網(wǎng)頁的個性化檢索研究作者通過對名人實體網(wǎng)頁相關度評價的研究與實踐,從中探索了一些可行的規(guī)律,在一定程度上提高了該領域信息檢索的服務質(zhì)量,為中文實體網(wǎng)頁的個性化檢索研究提出了一種新的研究視角,同時為進一步的研究工作提供了豐富的實驗數(shù)據(jù)。關鍵詞:信息檢索,信息提取,實體屬性,相關度評價,向量空間模型,文本分類,中文概念詞典,查詢擴展-II-ABSTR
7、ACTABSTRACTInformationRetrievalistoidentifytheinformationthatsatisfiesusers’requirementswithtechnologieslikeindexing,matchingandsoon.Theconventionalinformationretrievalstartedfromtextdataretrieval.Inrecentyears,therapiddevelopmentoftheInternethasbroughtusmas
8、siveanddynamicinformationthroughwebpages.Aimingatthepersonalizationofinformationretrieval,thisdissertationproposesaneffectivemethod.Theauthorusesstructuredentityattributematching,whichispriortok