資源描述:
《web數(shù)據(jù)庫特征表示和抽取方法的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中圖分類號:TP密級:公開學(xué)科分類號:論文編號:GK118222009120100005山東財經(jīng)大學(xué)碩士學(xué)位論文Web數(shù)據(jù)庫特征表示和抽取方法的研究作者姓名:趙琳學(xué)科專業(yè):管理科學(xué)與工程指導(dǎo)教師:聶培堯教授林培光副教授培養(yǎng)院系:管理科學(xué)與工程學(xué)院二○一二年四月十日ResearchonExpressionandExtractionofWebDatabase’sCharacteristicsADissertationSubmittedfortheDegreeofMasterCandidate:ZhaoLin
2、Supervisor:Prof.NiePeiyaoProf.LinPeiguangSchoolofManagementScienceandEngineeringShandongUniversityofFinanceandEconomicsSponsorBy:NaturalScienceFoundationofShandongProvince(NO.J09LG05)中圖分類號:TP密級:公開學(xué)科分類號:論文編號:GK118222009120100005碩士學(xué)位論文Web數(shù)據(jù)庫特征表示和抽取方法的研究作者姓
3、名:趙琳申請學(xué)位級別:管理學(xué)碩士指導(dǎo)教師姓名:聶培堯、林培光職稱:教授、副教授學(xué)科專業(yè):管理科學(xué)與工程研究方向:數(shù)據(jù)管理學(xué)習(xí)時間:自2009年9月1日起至2012年6月30日止學(xué)位授予單位:山東財經(jīng)大學(xué)學(xué)位授予日期:2012年6月山東省自然科學(xué)基金資助(項目編號:J09LG05)山東財經(jīng)大學(xué)學(xué)位論文獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進行研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得山東財經(jīng)大學(xué)或其它
4、教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。學(xué)位論文作者簽名:日期:年月日山東財經(jīng)大學(xué)學(xué)位論文使用授權(quán)聲明本人完全同意山東財經(jīng)大學(xué)有權(quán)使用本學(xué)位論文(包括但不限于其印刷版和電子版),使用方式包括但不限于:保留學(xué)位論文,按規(guī)定向國家有關(guān)部門(機構(gòu))送交學(xué)位論文,以學(xué)術(shù)交流為目的贈送和交換學(xué)位論文,允許學(xué)位論文被查閱、借閱和復(fù)印,將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,采用影印、縮印或其他復(fù)制手段保存學(xué)位論文。保密學(xué)位論文在解
5、密后的使用授權(quán)同上。學(xué)位論文作者簽名:日期:年月日指導(dǎo)教師簽名:日期:年月日摘要隨著Internet的發(fā)展,Web正在加速地“深化”,Web可以簡單地分為兩部分:SurfaceWeb和DeepWeb。前者是指通過超鏈接就可以被傳統(tǒng)搜索引擎搜索到的頁面的集合;后者普遍被認(rèn)為是網(wǎng)絡(luò)中可訪問的在線數(shù)據(jù)庫。與SurfaceWeb的信息相比,DeepWeb中所包含的信息數(shù)據(jù)量更大、信息質(zhì)量更好、專業(yè)性更強,因此日益成為人們獲取信息的主要途徑之一。由于DeepWeb中大量的信息被鎖定在數(shù)據(jù)庫內(nèi),而許多網(wǎng)頁也是通過響
6、應(yīng)具體的查詢動態(tài)生成的,所以實現(xiàn)對DeepWeb或WDB(Web數(shù)據(jù)庫)的檢索,不僅將大大擴充現(xiàn)有搜索引擎的搜索能力,更為人們方便地進行信息查找提供了便捷的手段。WDB查詢接口是我們訪問和檢索WDB的唯一路徑,每個查詢接口對應(yīng)于不同的查詢模式,用戶通過填寫不同的查詢接口并提交請求,從而發(fā)現(xiàn)合適的信息。但是隨著JavaScript、Ajax等動態(tài)腳本技術(shù)的廣泛應(yīng)用,查詢接口的復(fù)雜性也在逐漸增加,另外網(wǎng)上有眾多的WDB,而且其包含的數(shù)據(jù)也是多種多樣的,所以快速識別WDB這類動態(tài)查詢接口的特征、發(fā)現(xiàn)接口內(nèi)各元
7、素之間的約束關(guān)系、實現(xiàn)接口特征的量化表示并對特定領(lǐng)域的WDB數(shù)據(jù)的特征進行定量描述和抽取是實現(xiàn)對WDB自動訪問和提高傳統(tǒng)搜索引擎搜索能力的關(guān)鍵步驟。本文針對以上問題,主要以WDB特征為主線研究了WDB查詢接口和WDB數(shù)據(jù)特征的表示方法、Web數(shù)據(jù)庫采樣、WDB查詢接口和WDB數(shù)據(jù)特征的抽取方法。具體研究內(nèi)容包括:(1)WDB查詢接口和WDB數(shù)據(jù)特征的表示方法本文將WDB數(shù)據(jù)屬性分為三類,即文本屬性、分類屬性和數(shù)值屬性。對于文本屬性,采取基于詞頻的特征表示;對于數(shù)值型屬性,基于數(shù)值屬性具有連續(xù)性的特點,且
8、正態(tài)分布具有強大的普適性,我們采用正態(tài)分布的期望和偏差表示數(shù)值屬性的特征;對于分類型屬性采取基于統(tǒng)計的特征表示方法。在獲取以上各類屬性的特征后,將形成最終的特征向量。最后,因為本體具備良好的知識表示能力和推理能力,本研究采用本體的方法進行查詢接口的表示。(2)基于貝葉斯模型的數(shù)據(jù)樣本抽取方法為了實現(xiàn)對WDB特征的抽取,本文提出一種基于貝葉斯模型數(shù)據(jù)樣本抽取方法,I該方法大體過程分為5個步驟:①構(gòu)建WDB初始查詢;②通過初始查詢獲得查詢結(jié)果;