資源描述:
《基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、第34卷第4期2015年8月飛行器測控學報JournalofSpacecraftTT&CTechnologyV01.34No.4August2015引用格式:何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用[J].飛行器測控學報,2015,34(4)389—394.HeFeng,GuSuolin,ChenYanhui.TextproofreadingtechnologybasedOillevenshteindistancesimilarityl-j].JournalofSpacecraftTT&.CTechnology,2015,34(4):389—394?;诰庉嬀嚯x
2、相似度的文本校驗技術(shù)研究與應(yīng)用何鋒,谷鎖林,陳彥輝(酒泉衛(wèi)星發(fā)射中心·甘肅酒泉·732750)摘要:樹形結(jié)構(gòu)的文本配置在分布式的測控數(shù)據(jù)處理軟件中使用廣泛,它的正確性對數(shù)據(jù)處理而言至關(guān)重要。為了實現(xiàn)樹形結(jié)構(gòu)的文本配置自動檢查和糾錯,通過引入LD(LevenshteinDistance)編輯距離算法,把字符串的編輯操作推廣到多叉樹之間。在此基礎(chǔ)上定義了多叉樹之間的編輯距離,建立了衡量多叉樹之間相似度的方法,設(shè)計了基于模糊匹配的文本配置自動校對流程,解決了精確匹配時由字符的多義性導致的查全率失真和誤判的問題。根據(jù)實驗結(jié)果,查全率和查準率分另13達到了87.5%和i00%,有效提高了基于樹形
3、結(jié)構(gòu)的文本配置自動校驗時的可靠性。關(guān)鍵詞:字符串相似度;樹編輯距離;模糊匹配;文本校驗中圖分類號:V557+.3文獻標志碼:A文章編號:1674—5620(2015)04—0389—06DOI:10.7642/j.issn.1674—5620.2015-04-0389—06TextProofreadingTechnologyBasedonLevenshteinDistanceSimilarityHEFeng,GUSuolin,CHENYanhui(JiuquanSatelliteLaunchCenter,Jiuquan,GansuProvince732750)Abstract...Th
4、ecorrectnessoftextconfigu}ationbasedontreestructureiscriticallyimportantfordataprocessingasitiswidelyusedindistributeddataprocessingsoftwareofTT&C(Tracking,TelemetryandCommand).Toachieveautomaticproofreadingoftextconfigurationbasedontreestructure,LevenshteinDistanceisintroducedtoextendeditoperat
5、ionsbetweenstringstomulti—branchestrees.Onbasisofthis,treeLevenshteinDistanceisdefined,amethodformeasuringsimilaritybetweentreesisdeveloped,andatextproofreadingflowwithfuzzymatchingmeth~odisdesigned.Distortionofprecisionrateandmisjudgmentcausedbypolysemyofcharactersinaccuratematchingaresolved.Ac
6、cordingtoexperimentalresults,therecallratioandprecisionratioareupto87.5%and100%respec~tively,significantlyimprovingthereliabilityofautomatictextproofreadingbasedontreestructure.Keywords:similaritybetweenstrings;treeLevenshteindistance;fuzzymatching;textproofreading0引言目前測控數(shù)據(jù)處理中心主要采用分布式、全配置的系統(tǒng)構(gòu)架,以
7、發(fā)布一訂閱的模式向外分發(fā)數(shù)據(jù)。軟件的接口關(guān)系、信息格式都使用配置文件的形式保存,軟件維護時只需更改配置文件而不對軟件本身進行代碼維護。各分系統(tǒng)應(yīng)用軟件的配置以主題、設(shè)備、元素三層非線性多叉樹結(jié)構(gòu)(簡稱主題樹)進行組織。配置文件中主題樹一般有30多個,元素將近2000條,每條元素項有固定的24個節(jié)點(屬性),包括元素名稱、編碼、代號、傳輸格式、數(shù)據(jù)長度等,總共有40000*收稿日期:2014—12—15;修回日期:2015-01—28;網(wǎng)絡(luò)出版時