支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究

支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究

ID:33303515

大小:1.02 MB

頁數(shù):62頁

時(shí)間:2019-02-23

支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究_第1頁
支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究_第2頁
支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究_第3頁
支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究_第4頁
支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究_第5頁
資源描述:

《支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、碩士學(xué)位論文支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究RESEARCHONINDEXTECHNOLOGYOFSTRINGAPPROXIMATEQUERY佟星哈爾濱工業(yè)大學(xué)2012年6月國內(nèi)圖書分類號:TP393.02學(xué)校代碼:10213國際圖書分類號:62-5密級:公開工學(xué)碩士學(xué)位論文支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究碩士研究生:佟星導(dǎo)師:黃銘鈞申請學(xué)位:工學(xué)碩士學(xué)科:計(jì)算機(jī)技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2012年7月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP393.02U.D.C:62-5

2、DissertationfortheMasterDegreeinEngineeringRESEARCHONINDEXTECHNOLOGYOFSTRINGAPPROXIMATEQUERYCandidate:XingTongSupervisor:Prof.HuangMingjunAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofD

3、efence:June,2012Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)碩士學(xué)位論文摘要隨著社會信息化的不斷普及,字符串處理在當(dāng)今計(jì)算機(jī)領(lǐng)域的應(yīng)用也不斷拓展,并凸顯出更為重要的意義。一方面,字符串表示的含義更加多元化所以處理的方法也更為寬廣,另一方面,數(shù)據(jù)質(zhì)量問題的出現(xiàn)使得準(zhǔn)確的進(jìn)行字符串查詢處理出現(xiàn)一些困難,所以研究人員不得不對字符串進(jìn)行近似查詢處理。在一個(gè)字符串集合中,通過一些字符串的相似性函數(shù)尋找與查詢字符串相似的字符串集合被稱為字符

4、串的近似查找。字符串的近似查詢處理面臨著度量函數(shù)的定義,索引結(jié)構(gòu)的建立,大數(shù)據(jù)量的處理,考慮字符串權(quán)值等諸多挑戰(zhàn),所以字符串近似查詢處理成為當(dāng)下研究領(lǐng)域的重要研究課題。本文分析了已有的字符串近似查詢的工作(包括帶權(quán)值的和不帶權(quán)值的字符串近似查詢),發(fā)現(xiàn)當(dāng)前的字符串近似查詢索引結(jié)構(gòu)都普遍存在著一些問題。這些問題主要有索引結(jié)構(gòu)不能夠很好地更新,查詢效率低,支持查詢種類有限,支持的查詢字符串長度有限,只適用于固定閾值等等。針對這些問題,本文提出了新的索引結(jié)構(gòu)Fgramtree和Weitree,并基于這兩種索引結(jié)構(gòu)給出了新的查詢算法。

5、其中,F(xiàn)gramtree能夠?qū)⑾嗨频淖址ㄎ坏酵瑯拥慕Y(jié)點(diǎn)中,這樣就能顯著加快查找的速度。Weitree主要用于帶權(quán)值的字符串近似查詢,實(shí)現(xiàn)了字符串與數(shù)值類型數(shù)據(jù)的混合查找。通過在真實(shí)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),驗(yàn)證了我們提出的索引結(jié)構(gòu)及查詢算法的有效性。關(guān)鍵詞:索引;數(shù)據(jù)質(zhì)量;字符串近似查詢;權(quán)值I哈爾濱工業(yè)大學(xué)碩士學(xué)位論文AbstractWiththegrowingpopularityoftheinformationsociety,Stringhandlingplaysamoreimportantroleininformation

6、systemscontainingmorebroadsignificance.Ononehand,manynewproblemscanbeconvertedintoastringmanipulationproblemwithnovelapproach.Ontheotherhand,thedataqualityproblemmakestheexactstringqueryprocessingdifficult.Asaresult,manyresearchershadpaidmoreattentiontoapproximatest

7、ringqueryprocessing.Anapproximatesearchqueryonacollectionofstringsfindsthosestringsinthecollectionthataresimilartoagivenquerystring,wheresimilarityisdefinedusingagivensimilarityfunction.Approximatestringmatchingbringssometechnicalchallengesincludingthedefinitionofth

8、emetricfunctionforthestringapproximatequeryprocessing,theestablishmentoftheindexstructure,alargeamountofdataprocessing,theintroductionofth

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。