基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用

基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用

ID:46601357

大?。?36.12 KB

頁數(shù):6頁

時間:2019-11-26

基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用_第1頁
基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用_第2頁
基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用_第3頁
基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用_第4頁
基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用_第5頁
資源描述:

《基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、第34卷第4期2015年8月飛行器測控學報JournalofSpacecraftTT&CTechnologyV01.34No.4August2015引用格式:何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用[J].飛行器測控學報,2015,34(4)389—394.HeFeng,GuSuolin,ChenYanhui.TextproofreadingtechnologybasedOillevenshteindistancesimilarityl-j].JournalofSpacecraftTT&.CTechnology,2015,34(4):389—394?;诰庉嬀嚯x

2、相似度的文本校驗技術(shù)研究與應(yīng)用何鋒,谷鎖林,陳彥輝(酒泉衛(wèi)星發(fā)射中心·甘肅酒泉·732750)摘要:樹形結(jié)構(gòu)的文本配置在分布式的測控數(shù)據(jù)處理軟件中使用廣泛,它的正確性對數(shù)據(jù)處理而言至關(guān)重要。為了實現(xiàn)樹形結(jié)構(gòu)的文本配置自動檢查和糾錯,通過引入LD(LevenshteinDistance)編輯距離算法,把字符串的編輯操作推廣到多叉樹之間。在此基礎(chǔ)上定義了多叉樹之間的編輯距離,建立了衡量多叉樹之間相似度的方法,設(shè)計了基于模糊匹配的文本配置自動校對流程,解決了精確匹配時由字符的多義性導致的查全率失真和誤判的問題。根據(jù)實驗結(jié)果,查全率和查準率分另13達到了87.5%和i00%,有效提高了基于樹形

3、結(jié)構(gòu)的文本配置自動校驗時的可靠性。關(guān)鍵詞:字符串相似度;樹編輯距離;模糊匹配;文本校驗中圖分類號:V557+.3文獻標志碼:A文章編號:1674—5620(2015)04—0389—06DOI:10.7642/j.issn.1674—5620.2015-04-0389—06TextProofreadingTechnologyBasedonLevenshteinDistanceSimilarityHEFeng,GUSuolin,CHENYanhui(JiuquanSatelliteLaunchCenter,Jiuquan,GansuProvince732750)Abstract...Th

4、ecorrectnessoftextconfigu}ationbasedontreestructureiscriticallyimportantfordataprocessingasitiswidelyusedindistributeddataprocessingsoftwareofTT&C(Tracking,TelemetryandCommand).Toachieveautomaticproofreadingoftextconfigurationbasedontreestructure,LevenshteinDistanceisintroducedtoextendeditoperat

5、ionsbetweenstringstomulti—branchestrees.Onbasisofthis,treeLevenshteinDistanceisdefined,amethodformeasuringsimilaritybetweentreesisdeveloped,andatextproofreadingflowwithfuzzymatchingmeth~odisdesigned.Distortionofprecisionrateandmisjudgmentcausedbypolysemyofcharactersinaccuratematchingaresolved.Ac

6、cordingtoexperimentalresults,therecallratioandprecisionratioareupto87.5%and100%respec~tively,significantlyimprovingthereliabilityofautomatictextproofreadingbasedontreestructure.Keywords:similaritybetweenstrings;treeLevenshteindistance;fuzzymatching;textproofreading0引言目前測控數(shù)據(jù)處理中心主要采用分布式、全配置的系統(tǒng)構(gòu)架,以

7、發(fā)布一訂閱的模式向外分發(fā)數(shù)據(jù)。軟件的接口關(guān)系、信息格式都使用配置文件的形式保存,軟件維護時只需更改配置文件而不對軟件本身進行代碼維護。各分系統(tǒng)應(yīng)用軟件的配置以主題、設(shè)備、元素三層非線性多叉樹結(jié)構(gòu)(簡稱主題樹)進行組織。配置文件中主題樹一般有30多個,元素將近2000條,每條元素項有固定的24個節(jié)點(屬性),包括元素名稱、編碼、代號、傳輸格式、數(shù)據(jù)長度等,總共有40000*收稿日期:2014—12—15;修回日期:2015-01—28;網(wǎng)絡(luò)出版時

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。