資源描述:
《web信息整合平臺設(shè)計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、電子科技大學(xué)UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA碩士學(xué)位論文MASTERDISSERTATION論文題目:WEB信息整合平臺設(shè)計與實現(xiàn)學(xué)科專業(yè):計算機軟件與理論指導(dǎo)教師:高輝副教授作者姓名:楊康班級學(xué)號:200921060225萬方數(shù)據(jù)分類號密級注1UDC學(xué)位論文WEB信息整合平臺設(shè)計與實現(xiàn)(題名和副題名)楊康(作者姓名)指導(dǎo)教師高輝副教授博導(dǎo)_電子科技大學(xué)成都(職務(wù)、職稱、學(xué)位、單位名稱及地址)申請學(xué)位級別碩士專業(yè)名稱計算機軟件與理論論文提交日期2012.03論文答辯日期2012.05學(xué)
2、位授予單位和日期電子科技大學(xué)答辯委員會主席評閱人2012年月日注1:注明《國際十進分類法UDC》的類號II萬方數(shù)據(jù)獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。簽名:日期:年月日關(guān)于論文使用授權(quán)的說明本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家
3、有關(guān)部門或機構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)簽名:導(dǎo)師簽名:日期:年月日萬方數(shù)據(jù)摘要摘要隨著Internet技術(shù)的高速發(fā)展,網(wǎng)絡(luò)信息資源的快速增長,網(wǎng)絡(luò)已成為人們獲取數(shù)據(jù)的重要來源。面對龐大的網(wǎng)絡(luò)資源,搜索引擎為人們檢索提供重要的技術(shù)手段。然而,傳統(tǒng)的搜索引擎是基于單詞的檢索,存在一定的局限性,如搜索結(jié)果存在大量無關(guān)的網(wǎng)頁、由于轉(zhuǎn)載而造成信息內(nèi)容雷同等。因此,極有必要對網(wǎng)
4、絡(luò)信息資源進行整合,以幫助人們從海量網(wǎng)絡(luò)資源中,提煉出人們所關(guān)心的特定信息,并對數(shù)據(jù)重新整合與統(tǒng)一的展現(xiàn)。本文的主要研究工作就是整合WEB資源信息,使互聯(lián)網(wǎng)用戶能夠快速準確地搜尋到自己需要的信息。首先,本文對WEB信息整合中的相關(guān)理論和技術(shù)研究,包括信息整合兩種方法、三大組成模塊以及四種關(guān)鍵技術(shù)等。并在設(shè)計過程中對各模塊涉及知識做全面綜述,包括本體概念、網(wǎng)絡(luò)爬蟲、信息抽取、資源描述框架等。其次,本文設(shè)計并實現(xiàn)了一種WEB信息整合平臺原型系統(tǒng),該系統(tǒng)以本體為指導(dǎo)。設(shè)計了系統(tǒng)總體結(jié)構(gòu)框架模型,系統(tǒng)由4大模塊組成:數(shù)據(jù)采集、信息抽取、存儲模型、前臺呈現(xiàn)。提
5、出了基于本體和搜索引擎聚焦網(wǎng)絡(luò)爬蟲,基于本體的頁面分析過濾算法,基于本體和DOM樹路徑的信息抽取規(guī)則,以及基于RDF的數(shù)據(jù)存儲模型和基于B/S前臺結(jié)果呈現(xiàn)等一系列設(shè)計方案。通過該信息整合平臺,用戶可以設(shè)置需要整合的領(lǐng)域信息,系統(tǒng)能夠檢索并整合出互聯(lián)網(wǎng)中相關(guān)領(lǐng)域資源,并將結(jié)果以統(tǒng)一的、結(jié)構(gòu)的、形象的展示給用戶。該系統(tǒng)不需要對不同數(shù)據(jù)源分別建立包裝器,而是作用域整個互聯(lián)網(wǎng)之上,能夠融合互聯(lián)網(wǎng)中多種異構(gòu)資源。最后,本文還對WEB信息整合平臺做了綜合測試,包括爬蟲的效率與抓取量測試、數(shù)據(jù)抽取率測試等。測試證明系統(tǒng)能整合互聯(lián)網(wǎng)中部分異質(zhì)的數(shù)據(jù)源,但也存在一些不
6、足。關(guān)鍵詞:WEB,異質(zhì)資源,信息抽取,本體,信息整合I萬方數(shù)據(jù)ABSTRACTABSTRACTWiththerapiddevelopmentofInternettechnology,andenrichofnetworkinformationresources,theInternethasbecomeamoreimportantwayforpeopletoqueryandaccesstodata.Facedwiththehugenetworkresources,thesearchengineprovidesanimportantcontributio
7、nforpeopletoinformationretrieval.However,traditionalsearchenginesarekeyword-basedretrieval.Therearesomelimitations,suchastheexistenceofalargenumberofirrelevantsearchresults,thepagemaybereservedwithsameinformationcontent.Therefore,itishighlynecessarytointegrateofInternetInformat
8、ionresourcestohelppeopleextractthespecificinformationc