資源描述:
《deep+web查詢接口聚類的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、密級桂林電子科技大學(xué)碩士學(xué)位論文(全日制工程碩士)題目:(英文)DeepWeb查詢接口聚類的研究ResearchonDeepWebQueryInterfaceClustering研研究究生生學(xué)姓號:名:1108521109李巍指導(dǎo)教師姓名、職務(wù):強(qiáng)保華教授申請學(xué)位門類:工程碩士學(xué)科、專業(yè):計(jì)算機(jī)技術(shù)萬方數(shù)據(jù)提交論論文答文日期:辯日期:2013年12月2014年3月獨(dú)創(chuàng)性(或創(chuàng)新性)聲明本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外
2、,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得桂林電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。申請學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切相關(guān)責(zé)任。本人簽名:日期:關(guān)于論文使用授權(quán)的說明本人完全了解桂林電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬桂林電子科技大學(xué)。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為桂林電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論
3、文;學(xué)校可以公布論文的全部或部分內(nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。(保密的論文在解密后遵守此規(guī)定)本學(xué)位論文屬于保密在____年解密后適用本授權(quán)書。萬方數(shù)據(jù)本人簽名:導(dǎo)師簽名:日期:日期:摘要摘要隨著互聯(lián)網(wǎng)技術(shù)日新月異的發(fā)展,Web中蘊(yùn)含的信息也在極速的擴(kuò)張著。從網(wǎng)絡(luò)中信息的隱含的層次深度來看。我們可以將Web劃分“SurfaceWeb”(表層網(wǎng))和“DeepWeb”(深層網(wǎng))。SurfaceWeb”是指那些我們無需向網(wǎng)絡(luò)提交查詢或請求而可以直接訪問的Web頁面,這也是傳統(tǒng)的搜索引擎,如:百度、google等當(dāng)前所涉及
4、的搜索領(lǐng)域;而對于“DeepWeb”,用戶必須通過填寫表單或提交請求,才能獲取所需數(shù)據(jù)。并且“DeepWeb”中的信息具有以下5方面特點(diǎn):(1)傳統(tǒng)的搜索引擎無法獲取;(2)用戶通過填寫表單來獲取信息;(3)蘊(yùn)含的信息質(zhì)量更高,數(shù)量更大;(4)領(lǐng)域特征明顯;(5)大部分可以免費(fèi)訪問。而傳統(tǒng)的通用搜索引擎的搜索結(jié)果僅僅覆蓋了“SurfaceWeb”,因此并不能為用戶返回有效的查詢結(jié)果。為了向用戶提供高效的DeepWeb信息搜索服務(wù),關(guān)鍵是要向用戶提供一個(gè)包含各個(gè)領(lǐng)域的統(tǒng)一的集成查詢接口。正如百度和谷歌那樣,一個(gè)簡單的搜索框。在研究DeepWe
5、b數(shù)據(jù)集成時(shí),由于DeepWeb的特殊性,使研究工作面臨種種困難,目前一個(gè)公認(rèn)的有效途徑就是按照領(lǐng)域來進(jìn)行DeepWeb數(shù)據(jù)集成。而如何對不同領(lǐng)域的DeepWeb查詢接口進(jìn)行有效的聚類,便成為生成集成查詢接口時(shí)需要解決的核心問題之一。并且已經(jīng)成為當(dāng)前學(xué)術(shù)界和商業(yè)界的研究熱點(diǎn)。論文圍繞DeepWeb查詢接口聚類這一核心問題展開。所做的研究工作及貢獻(xiàn)如下:一、對DeepWeb領(lǐng)域整體的研究背景、研究現(xiàn)狀、發(fā)展趨勢和需要解決的關(guān)鍵問題進(jìn)行了分析和總結(jié)。為后續(xù)研究工作打下基礎(chǔ)。二、對DeepWeb查詢接口預(yù)處理進(jìn)行初步探索。對本體相關(guān)概念、體構(gòu)建方
6、法和本體構(gòu)建工具進(jìn)行深入研究。通過構(gòu)建領(lǐng)域本體,對DeepWeb查詢接口進(jìn)行語義擴(kuò)展。增加同一領(lǐng)域內(nèi)查詢接口的相似度。解決部分查詢接口屬性稀疏的問題。三、提出了基于潛在語義分析的DeepWeb查詢接口聚類算法。為解決DeepWeb查詢接口聚類時(shí)“一詞多義”的問題開辟新的思路。首先對潛在語義分析(LSA)的理論進(jìn)行了深入研究,在查詢接口聚類時(shí)引入潛在語義分析的方法,消除噪聲數(shù)據(jù),發(fā)掘出查詢接口之間的內(nèi)在語義關(guān)系。實(shí)驗(yàn)結(jié)果表明,新算法得出的實(shí)驗(yàn)結(jié)果要優(yōu)于傳統(tǒng)的基于向量空間模型(VSM)的方法。四、研究在海量數(shù)據(jù)情況下,如何提升查詢接口聚類算法的
7、性能。考慮到DeepWeb查詢接口逐漸呈現(xiàn)出海量的特性,以及大數(shù)據(jù)時(shí)代的到來。對Hadoop分布式平臺和MapReduce編程模型進(jìn)行深入學(xué)習(xí)和研究。將DeepWeb查詢接口聚類算法進(jìn)行并行化改造,并移植到Hadoop平臺。實(shí)驗(yàn)結(jié)果表明,在確保算法設(shè)計(jì)正確的前提下,III萬方數(shù)據(jù)“摘要對海量的DeepWeb查詢接口聚類,Hadoop平臺無論是在擴(kuò)展性還是加速比上都表現(xiàn)出了優(yōu)良的性能。關(guān)鍵詞:DeepWeb查詢接口;本體;潛在語義分析;Hadoop;MapReduceIV萬方數(shù)據(jù)AbstractAbstractWiththerapiddeve
8、lopmentofInternettechnology,thedatavolumeofinformationontheWebshowsanexplosivegrowthtrend