資源描述:
《基于實(shí)例聚類的數(shù)據(jù)庫模式匹配方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號(hào):密級(jí):UDC:編號(hào):工學(xué)碩士學(xué)位論文基于實(shí)例聚類的數(shù)據(jù)庫模式匹配方法研究碩士研究生:張媛新指導(dǎo)教師:劉杰教授學(xué)科、專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)論文主審人:張健沛教授哈爾濱工程大學(xué)2013年3月分類號(hào):密級(jí):UDC:編號(hào):工學(xué)碩士學(xué)位論文基于實(shí)例聚類的數(shù)據(jù)庫模式匹配方法研究碩士研究生:張媛新指導(dǎo)教師:劉杰教授學(xué)位級(jí)別:工學(xué)碩士學(xué)科、專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院論文提交日期:2013年3月論文答辯日期:2013年3月學(xué)位授予單位:哈爾濱工程大學(xué)ClassifiedIndex:U.D.C:ADisser
2、tationfortheDegreeofM.EngResearchonDatabaseSchemaMatchingBasedonInstancesClusteringCandidate:ZhangYuanxinSupervisor:Prof.LiuJieAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerAppliedTechnologyDateofSubmission:March.2013DateofOralExamination:March.
3、2013University:HarbinEngineeringUniversity哈爾濱工程大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:本論文的所有工作,是在導(dǎo)師的指導(dǎo)下,由作者本人獨(dú)立完成的。有關(guān)觀點(diǎn)、方法、數(shù)據(jù)和文獻(xiàn)的引用已在文中指出,并與參考文獻(xiàn)相對(duì)應(yīng)。除文中已注明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)公開發(fā)表的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。作者(簽字):日期:年月日哈爾濱工程大學(xué)學(xué)位論文授權(quán)使用聲明本人完全了解學(xué)校保護(hù)知識(shí)
4、產(chǎn)權(quán)的有關(guān)規(guī)定,即研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)屬于哈爾濱工程大學(xué)。哈爾濱工程大學(xué)有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件。本人允許哈爾濱工程大學(xué)將論文的部分或全部?jī)?nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文,可以公布論文的全部?jī)?nèi)容。同時(shí)本人保證畢業(yè)后結(jié)合學(xué)位論文研究課題再撰寫的論文一律注明作者第一署名單位為哈爾濱工程大學(xué)。涉密學(xué)位論文待解密后適用本聲明。本論文(□在授予學(xué)位后即可□在授予學(xué)位12個(gè)月后□解密后)由哈爾濱工程大學(xué)送交有關(guān)部門進(jìn)行保存、匯編等。作者(簽字
5、):導(dǎo)師(簽字):日期:年月日年月日基于實(shí)例聚類的數(shù)據(jù)庫模式匹配方法研究摘要隨著近些年信息技術(shù)的飛速發(fā)展使得數(shù)據(jù)庫成為數(shù)據(jù)管理的重要工具,但由于不同行業(yè)和不同部門間描述數(shù)據(jù)的方式和方法不同,要實(shí)現(xiàn)這些大量的異構(gòu)的數(shù)據(jù)共享成為了當(dāng)今數(shù)據(jù)集成領(lǐng)域廣泛研究的熱點(diǎn)。數(shù)據(jù)集成的首要步驟就是要實(shí)現(xiàn)模式匹配,即數(shù)據(jù)模式元素之間的語義對(duì)應(yīng)關(guān)系,因此本課題研究模式匹配對(duì)于數(shù)據(jù)挖掘具有重要意義。已提出的模式匹配方法多數(shù)是基于模式信息來實(shí)現(xiàn)的,但從評(píng)估結(jié)果來看任何方法都遠(yuǎn)遠(yuǎn)達(dá)不到100%的準(zhǔn)確率,并且在模式信息不明確或者有沖突的情況下這些方
6、法經(jīng)常受到限制。通過對(duì)現(xiàn)有方法的分析本文提出一種利用模式信息輔助實(shí)例信息聚類的數(shù)據(jù)庫模式匹配方法—DSMIC(DatabaseSchemaMatchingbasedonInstancesClustering),該方法分為三大模塊,即預(yù)處理模塊、聚類處理模塊、映射生成模塊。其中,在預(yù)處理模塊中利用經(jīng)典的遺傳算法對(duì)模式信息進(jìn)行處理生成候選匹配集合;在聚類處理模塊中提出一種改進(jìn)的K-Means聚類算法將候選匹配集合中模式元素的實(shí)例數(shù)據(jù)進(jìn)行聚類,根據(jù)聚類結(jié)果計(jì)算出模式元素間的相似度;映射生成模塊根據(jù)模式元素間的相似度生成圖論中
7、的完全加權(quán)二分圖,利用最大權(quán)匹配算法提煉出模式元素的最終結(jié)果。最后,本文通過實(shí)驗(yàn)驗(yàn)證了基于實(shí)例聚類的模式匹配方法的可行性,并以此表明該方法在一定程度上提高了模式匹配的準(zhǔn)確率、召回率和全面性等技術(shù)指標(biāo)。關(guān)鍵詞:模式匹配,遺傳算法,實(shí)例聚類,映射生成基于實(shí)例聚類的數(shù)據(jù)庫模式匹配方法研究AbstractWiththerapiddevelopmentoftheinformationtechnology,thedatabasehasbecomeanimportanttoolfordatabasemanagement.Duetot
8、hedifferentwaysofdescribingthedataindifferentindustriesanddifferentsectors,achievingtheseheterogeneousdatasharinghasbecometoday`shotextensiveresearchtopicinthedataint