deep+web查詢接口聚類的研究

deep+web查詢接口聚類的研究

ID:33619785

大?。?.39 MB

頁數(shù):54頁

時(shí)間:2019-02-27

deep+web查詢接口聚類的研究_第1頁
deep+web查詢接口聚類的研究_第2頁
deep+web查詢接口聚類的研究_第3頁
deep+web查詢接口聚類的研究_第4頁
deep+web查詢接口聚類的研究_第5頁
資源描述:

《deep+web查詢接口聚類的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、密級桂林電子科技大學(xué)碩士學(xué)位論文(全日制工程碩士)題目:(英文)DeepWeb查詢接口聚類的研究ResearchonDeepWebQueryInterfaceClustering研研究究生生學(xué)姓號:名:1108521109李巍指導(dǎo)教師姓名、職務(wù):強(qiáng)保華教授申請學(xué)位門類:工程碩士學(xué)科、專業(yè):計(jì)算機(jī)技術(shù)萬方數(shù)據(jù)提交論論文答文日期:辯日期:2013年12月2014年3月獨(dú)創(chuàng)性(或創(chuàng)新性)聲明本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外

2、,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得桂林電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。申請學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切相關(guān)責(zé)任。本人簽名:日期:關(guān)于論文使用授權(quán)的說明本人完全了解桂林電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬桂林電子科技大學(xué)。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為桂林電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論

3、文;學(xué)校可以公布論文的全部或部分內(nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。(保密的論文在解密后遵守此規(guī)定)本學(xué)位論文屬于保密在____年解密后適用本授權(quán)書。萬方數(shù)據(jù)本人簽名:導(dǎo)師簽名:日期:日期:摘要摘要隨著互聯(lián)網(wǎng)技術(shù)日新月異的發(fā)展,Web中蘊(yùn)含的信息也在極速的擴(kuò)張著。從網(wǎng)絡(luò)中信息的隱含的層次深度來看。我們可以將Web劃分“SurfaceWeb”(表層網(wǎng))和“DeepWeb”(深層網(wǎng))。SurfaceWeb”是指那些我們無需向網(wǎng)絡(luò)提交查詢或請求而可以直接訪問的Web頁面,這也是傳統(tǒng)的搜索引擎,如:百度、google等當(dāng)前所涉及

4、的搜索領(lǐng)域;而對于“DeepWeb”,用戶必須通過填寫表單或提交請求,才能獲取所需數(shù)據(jù)。并且“DeepWeb”中的信息具有以下5方面特點(diǎn):(1)傳統(tǒng)的搜索引擎無法獲取;(2)用戶通過填寫表單來獲取信息;(3)蘊(yùn)含的信息質(zhì)量更高,數(shù)量更大;(4)領(lǐng)域特征明顯;(5)大部分可以免費(fèi)訪問。而傳統(tǒng)的通用搜索引擎的搜索結(jié)果僅僅覆蓋了“SurfaceWeb”,因此并不能為用戶返回有效的查詢結(jié)果。為了向用戶提供高效的DeepWeb信息搜索服務(wù),關(guān)鍵是要向用戶提供一個(gè)包含各個(gè)領(lǐng)域的統(tǒng)一的集成查詢接口。正如百度和谷歌那樣,一個(gè)簡單的搜索框。在研究DeepWe

5、b數(shù)據(jù)集成時(shí),由于DeepWeb的特殊性,使研究工作面臨種種困難,目前一個(gè)公認(rèn)的有效途徑就是按照領(lǐng)域來進(jìn)行DeepWeb數(shù)據(jù)集成。而如何對不同領(lǐng)域的DeepWeb查詢接口進(jìn)行有效的聚類,便成為生成集成查詢接口時(shí)需要解決的核心問題之一。并且已經(jīng)成為當(dāng)前學(xué)術(shù)界和商業(yè)界的研究熱點(diǎn)。論文圍繞DeepWeb查詢接口聚類這一核心問題展開。所做的研究工作及貢獻(xiàn)如下:一、對DeepWeb領(lǐng)域整體的研究背景、研究現(xiàn)狀、發(fā)展趨勢和需要解決的關(guān)鍵問題進(jìn)行了分析和總結(jié)。為后續(xù)研究工作打下基礎(chǔ)。二、對DeepWeb查詢接口預(yù)處理進(jìn)行初步探索。對本體相關(guān)概念、體構(gòu)建方

6、法和本體構(gòu)建工具進(jìn)行深入研究。通過構(gòu)建領(lǐng)域本體,對DeepWeb查詢接口進(jìn)行語義擴(kuò)展。增加同一領(lǐng)域內(nèi)查詢接口的相似度。解決部分查詢接口屬性稀疏的問題。三、提出了基于潛在語義分析的DeepWeb查詢接口聚類算法。為解決DeepWeb查詢接口聚類時(shí)“一詞多義”的問題開辟新的思路。首先對潛在語義分析(LSA)的理論進(jìn)行了深入研究,在查詢接口聚類時(shí)引入潛在語義分析的方法,消除噪聲數(shù)據(jù),發(fā)掘出查詢接口之間的內(nèi)在語義關(guān)系。實(shí)驗(yàn)結(jié)果表明,新算法得出的實(shí)驗(yàn)結(jié)果要優(yōu)于傳統(tǒng)的基于向量空間模型(VSM)的方法。四、研究在海量數(shù)據(jù)情況下,如何提升查詢接口聚類算法的

7、性能。考慮到DeepWeb查詢接口逐漸呈現(xiàn)出海量的特性,以及大數(shù)據(jù)時(shí)代的到來。對Hadoop分布式平臺和MapReduce編程模型進(jìn)行深入學(xué)習(xí)和研究。將DeepWeb查詢接口聚類算法進(jìn)行并行化改造,并移植到Hadoop平臺。實(shí)驗(yàn)結(jié)果表明,在確保算法設(shè)計(jì)正確的前提下,III萬方數(shù)據(jù)“摘要對海量的DeepWeb查詢接口聚類,Hadoop平臺無論是在擴(kuò)展性還是加速比上都表現(xiàn)出了優(yōu)良的性能。關(guān)鍵詞:DeepWeb查詢接口;本體;潛在語義分析;Hadoop;MapReduceIV萬方數(shù)據(jù)AbstractAbstractWiththerapiddeve

8、lopmentofInternettechnology,thedatavolumeofinformationontheWebshowsanexplosivegrowthtrend

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。