資源描述:
《基于頻繁模式和語義處理的deep+web數(shù)據(jù)源分類研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、蘇州大學學位論文獨創(chuàng)性聲明.、.王7‘8S3<本人鄭重聲明:所提交的學位論文是本人在導(dǎo)師的指導(dǎo)下,獨立進行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果,也不含為獲得蘇州大學或其它教育機構(gòu)的學位證書而使用過的材料。對本文的研究作出重要貢獻的個人和集體,均已在文中以明確方式標明。本人承擔本聲明的法律責任。論文作者簽名:二華址日期:魚p』夠蘇州大學學位論文使用授權(quán)聲明㈣螋㈣㈣Y1732Ifllll0Ifllll3Il
2、lll5lllll。本人完全了解蘇州大學關(guān)于收集、保存和使用學位論
3、文的規(guī)定,即:學位論文著作權(quán)歸屬蘇州大學。本學位論文電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。蘇州大學有權(quán)向國家圖書館、中國社科院文獻信息情報中心、中國科學技術(shù)信息研究所(含萬方數(shù)據(jù)電子出版社)、中國學術(shù)期刊(光盤版)電子雜志社送交本學位論文的復(fù)印件和電子文檔,允許論文被查閱和借閱,可以采用影印、縮印或其他復(fù)制手段保存和匯編學位論文,可以將學位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索。涉密論文口本學位論文屬在——年一月解密后適用本規(guī)定。非涉密論文口論文作者簽名:籃量z日導(dǎo)師簽名:尊≥:型歪._日基于頻繁模式和語義處理的DeepWeb數(shù)
4、據(jù)源分類研究摘要基于頻繁模式和語義處理的DeepWeb數(shù)據(jù)源分類研究摘要隨著網(wǎng)絡(luò)規(guī)模的日益擴大,網(wǎng)絡(luò)已經(jīng)成為巨大的信息資源庫。其中很大部分信息被“深藏”于各類在線數(shù)據(jù)庫中,用戶只能通過查詢接口提交查詢來獲取里面的信息,這類網(wǎng)絡(luò)信息被稱為DeepWeb。由于DeepWeb資源的異構(gòu)性、大規(guī)模性和動態(tài)性使得尋找合適的數(shù)據(jù)源成為巨大的挑戰(zhàn)。亟需一種DeepWeb信息集成系統(tǒng),DeepWeb數(shù)據(jù)源分類是集成系統(tǒng)中的關(guān)鍵步驟。本文主要研究的是DeepWeb數(shù)據(jù)源分類,主要工作包括:(1)對DeepWeb相關(guān)背景和國內(nèi)外研究現(xiàn)狀進行了介紹,并提
5、出了本文的框架、重點研究內(nèi)容以及研究意義。(2)分析了基于可視化的查詢接口特征信息提取技術(shù),在此基礎(chǔ)上提出查詢接口的表單內(nèi)容特征和文本內(nèi)容特征提取方法。(3)對于查詢接口資源豐富情況下的DeepWeb數(shù)據(jù)源分類,本文引入數(shù)據(jù)挖掘的思想。利用Apriori算法,挖掘出接口特征資源中的頻繁模式。利用頻繁模式更好的領(lǐng)域信息貢獻能力,改進了樸素貝葉斯分類模型中的獨立特征,發(fā)揮特征之間的聯(lián)系,放松條件獨立性限制,更好的實現(xiàn)TDeepWeb數(shù)據(jù)源分類。(4)對于查詢接口資源稀疏情況下的DeepWeb數(shù)據(jù)源分類,本文對特征進行語義擴展。通過外部知
6、識庫WordNet,建立包含同義詞集的特征向量,有效的增加了查詢接口特征的領(lǐng)域劃分性。利用改進的KNN分類算法,建立數(shù)據(jù)源分類模型。本文選取了UIUCWeb數(shù)據(jù)集中六類領(lǐng)域的DeepWeb數(shù)據(jù)源查詢接口集合作為實驗數(shù)據(jù),然后利用10折交叉驗證法分別對本文提出的兩個分類模型進行了驗證,證明本文所提出的兩個分類模型具有較好的分類精度和應(yīng)用價值。關(guān)鍵詞:DeepW曲,數(shù)據(jù)源分類,數(shù)據(jù)挖掘,頻繁模式,語義處理作者:華慧指導(dǎo)教師:伏玉琛—A——b—s—tr—a—c—t————————R—e—a—searchofDeepWebDataSourc
7、eClassificationBasedonFrequentPatternandSemanticProcessing——ReasearchofDeepWebDataSourceClassificationBasedonFrequentPatternandSemanticProcessingAbstractWimanincreasinglylargesize.networkhasbecomeahugelibraryforinformation.BtitmuchoftheinformationiS”hidden”inonlinedata
8、bases,thereforeusershavetOsubmitqueriesthroughthequeryinterfacetoobtaininsideinformation,whichisknownasDeepW曲.ThenatureofDeepW曲isheterogeneous,large-scaleanddynamic,whichmakesthesearchforsuitabledatabecomeagreatchallenge.Sothere’SanurgentneedofaDeepWrebinformationinteg
9、rationsystem.DeepW曲datasourceclassificationisthekeystepinsuchsystem.T1lispaperstudiesclassificationofDeepWrebdatasour