資源描述:
《支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究RESEARCHONINDEXTECHNOLOGYOFSTRINGAPPROXIMATEQUERY佟星哈爾濱工業(yè)大學(xué)2012年6月國內(nèi)圖書分類號:TP393.02學(xué)校代碼:10213國際圖書分類號:62-5密級:公開工學(xué)碩士學(xué)位論文支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究碩士研究生:佟星導(dǎo)師:黃銘鈞申請學(xué)位:工學(xué)碩士學(xué)科:計(jì)算機(jī)技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2012年7月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP393.02U.D.C:62-5
2、DissertationfortheMasterDegreeinEngineeringRESEARCHONINDEXTECHNOLOGYOFSTRINGAPPROXIMATEQUERYCandidate:XingTongSupervisor:Prof.HuangMingjunAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofD
3、efence:June,2012Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)碩士學(xué)位論文摘要隨著社會信息化的不斷普及,字符串處理在當(dāng)今計(jì)算機(jī)領(lǐng)域的應(yīng)用也不斷拓展,并凸顯出更為重要的意義。一方面,字符串表示的含義更加多元化所以處理的方法也更為寬廣,另一方面,數(shù)據(jù)質(zhì)量問題的出現(xiàn)使得準(zhǔn)確的進(jìn)行字符串查詢處理出現(xiàn)一些困難,所以研究人員不得不對字符串進(jìn)行近似查詢處理。在一個(gè)字符串集合中,通過一些字符串的相似性函數(shù)尋找與查詢字符串相似的字符串集合被稱為字符
4、串的近似查找。字符串的近似查詢處理面臨著度量函數(shù)的定義,索引結(jié)構(gòu)的建立,大數(shù)據(jù)量的處理,考慮字符串權(quán)值等諸多挑戰(zhàn),所以字符串近似查詢處理成為當(dāng)下研究領(lǐng)域的重要研究課題。本文分析了已有的字符串近似查詢的工作(包括帶權(quán)值的和不帶權(quán)值的字符串近似查詢),發(fā)現(xiàn)當(dāng)前的字符串近似查詢索引結(jié)構(gòu)都普遍存在著一些問題。這些問題主要有索引結(jié)構(gòu)不能夠很好地更新,查詢效率低,支持查詢種類有限,支持的查詢字符串長度有限,只適用于固定閾值等等。針對這些問題,本文提出了新的索引結(jié)構(gòu)Fgramtree和Weitree,并基于這兩種索引結(jié)構(gòu)給出了新的查詢算法。
5、其中,F(xiàn)gramtree能夠?qū)⑾嗨频淖址ㄎ坏酵瑯拥慕Y(jié)點(diǎn)中,這樣就能顯著加快查找的速度。Weitree主要用于帶權(quán)值的字符串近似查詢,實(shí)現(xiàn)了字符串與數(shù)值類型數(shù)據(jù)的混合查找。通過在真實(shí)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),驗(yàn)證了我們提出的索引結(jié)構(gòu)及查詢算法的有效性。關(guān)鍵詞:索引;數(shù)據(jù)質(zhì)量;字符串近似查詢;權(quán)值I哈爾濱工業(yè)大學(xué)碩士學(xué)位論文AbstractWiththegrowingpopularityoftheinformationsociety,Stringhandlingplaysamoreimportantroleininformation
6、systemscontainingmorebroadsignificance.Ononehand,manynewproblemscanbeconvertedintoastringmanipulationproblemwithnovelapproach.Ontheotherhand,thedataqualityproblemmakestheexactstringqueryprocessingdifficult.Asaresult,manyresearchershadpaidmoreattentiontoapproximatest
7、ringqueryprocessing.Anapproximatesearchqueryonacollectionofstringsfindsthosestringsinthecollectionthataresimilartoagivenquerystring,wheresimilarityisdefinedusingagivensimilarityfunction.Approximatestringmatchingbringssometechnicalchallengesincludingthedefinitionofth
8、emetricfunctionforthestringapproximatequeryprocessing,theestablishmentoftheindexstructure,alargeamountofdataprocessing,theintroductionofth