資源描述:
《基于概念格deep+web查詢接口建模系統(tǒng)的研究和設(shè)計(jì)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、西安電子科技大學(xué)學(xué)位論文獨(dú)創(chuàng)性(或創(chuàng)新性)聲明秉承學(xué)校嚴(yán)謹(jǐn)?shù)膶W(xué)風(fēng)和優(yōu)良的科學(xué)道德,本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得西安電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。申請學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切的法律責(zé)任。本人簽名:日期西安電子科技大學(xué)關(guān)于論文使用授權(quán)的說明本人完全了解西安電子科技大學(xué)有關(guān)保留和使
2、用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬西安電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。同時本人保證,畢業(yè)后結(jié)合學(xué)位論文研究課題再撰寫的文章一律署名單位為西安電子科技大學(xué)。(保密的論文在解密后遵守此規(guī)定)本人簽名:日期導(dǎo)師簽名:日期摘要摘要近年來,互聯(lián)網(wǎng)在世界范圍內(nèi)蓬勃發(fā)展,其承載的信息量更是急劇膨脹?;ヂ?lián)網(wǎng)承載的數(shù)據(jù)一部分是可以從Web頁面上直接獲取的表層數(shù)據(jù),另一部分是以結(jié)構(gòu)化方式存儲于數(shù)據(jù)庫中的DeepWeb數(shù)據(jù)。De
3、epWeb數(shù)據(jù)具有非常高的應(yīng)用價(jià)值,但只能通過Web頁面提供的查詢接口訪問;而近年來出現(xiàn)的一些Web應(yīng)用,為了獲取DeepWeb數(shù)據(jù)需要頻繁、自動、交叉訪問多個查詢接口,不僅要求能夠識別查詢接口元素,更要求理解查詢接口語義,因此有必要對查詢接口的語義和結(jié)構(gòu)進(jìn)行建模,從而更好地理解并利用DeepWeb數(shù)據(jù)。概念格理論又稱形式概念分析(FormalConceptAnalysis)是由德國數(shù)學(xué)家Wille于1982年提出的一種數(shù)學(xué)理論。它主要用于知識的形式化表示,同時也是一種有效的數(shù)據(jù)分析工具。查詢接口建模的核心問題是語義關(guān)系發(fā)現(xiàn),而概念格對知識的組織方式
4、已被證明非常適合進(jìn)行語義關(guān)系挖掘,因此概念格理論可以有效地解決查詢接口的語義識別問題。為了完成查詢接口建模,本文提出了一種DeepWeb查詢接口模型。該模型描述了查詢接口的組成要素與組織結(jié)構(gòu),清晰地表達(dá)了查詢接口中元素間的語義關(guān)系。對于該模型,本文重點(diǎn)研究了相關(guān)的建模方法,主要工作包括:第一,給出查詢接口的布局矩陣及相關(guān)算法。第二,定義用于分析查詢接口的維空間,并從理論上證明了基于維空間進(jìn)行查詢接口建模的正確性。第三,研究如何利用概念格理論挖掘查詢接口中的語義規(guī)則。最后,基于以上模型,本文實(shí)現(xiàn)了一個DeepWeb查詢接口建模系統(tǒng)。該系統(tǒng)主要由HTML
5、解析模塊、布局矩陣操作模塊、維空間映射模塊、語義規(guī)則挖掘模塊組成。系統(tǒng)提供了接口模型管理功能,可根據(jù)用戶選擇的查詢接口進(jìn)行建模。文中通過實(shí)驗(yàn)分析了系統(tǒng)的時間構(gòu)成和建模準(zhǔn)確率,證明了該建模系統(tǒng)的有效性。關(guān)鍵詞:DeepWeb查詢接口建模語義識別概念格基于概念格的DeepWeb查詢接口建模系統(tǒng)研究與設(shè)計(jì)AbstractAbstractInrecentyears,theInternetisboomingintheworldandtheinformationitcarriesgrowthmuchfaster.Theinformationcarriedbyth
6、eInternetcanbedividedintotwoparts,onepartcalledSurfaceWebisaccessibledirectlyonthewebandtheothercalledDeepWebisstoredinthedatabasebehindtheWebinastructuredwaywhichmakesDeepWebdatamorevaluable.DeepWebcanbeaccessedonlythroughthequeryinterfaceprovidedbytheWeb,however,increasingnum
7、berofwebapplicationsneedtoaccessqueryinterfacesfrequentlyandautomatically.Therefore,itisnecessaryformodelingthesemanticsandstructureofthequeryinterface.Conceptlatticetheory,alsoknownasFormalConceptAnalysis,wasproposedasamathematicaltheorybyRudolfWillein1982.Conceptlatticetheory
8、ismainlyusedfortheformalizationofknowledge,butitisalso