資源描述:
《自然場(chǎng)景下文本區(qū)域定位方法的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、碩士學(xué)位論文自然場(chǎng)景下文本區(qū)域定位方法的研究RESEARCHONTHEALGORITHMOFTEXTLOCATIONINNATURALSCENE王毅哈爾濱工業(yè)大學(xué)2016年6月國(guó)內(nèi)圖書(shū)分類號(hào):TP391.4學(xué)校代碼:10213國(guó)際圖書(shū)分類號(hào):681.5密級(jí):公開(kāi)工程碩士學(xué)位論文自然場(chǎng)景下文本區(qū)域定位方法的研究碩士研究生:王毅導(dǎo)師:高會(huì)軍教授申請(qǐng)學(xué)位:工程碩士學(xué)科:控制科學(xué)與工程所在單位:航天學(xué)院答辯日期:2016年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP391.4U.D.C:681.5Dis
2、sertationfortheMasterDegreeinEngineeringRESEARCHONTHEALGORITHMOFTEXTLOCATIONINNATURALSCENECandidate:WangYiSupervisor:Prof.GaoHuijunAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ControlScienceandEngineeringAffiliation:SchoolofAstronauticsDateofDefence:Ju
3、ne,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要隨著具有拍照功能電子設(shè)備的普及,海量的圖片和視頻文件每時(shí)每刻都在產(chǎn)生,自然場(chǎng)景下的文字識(shí)別技術(shù)能夠幫助人們高效、準(zhǔn)確的獲取圖片中的文本信息,因此得到了快速發(fā)展。文本定位是文字識(shí)別的首要環(huán)節(jié),是當(dāng)前計(jì)算機(jī)視覺(jué)的研究熱點(diǎn)之一,具有十分重大的研究意義。本文以自然場(chǎng)景為研究背景,圍繞自然場(chǎng)景下的文本目標(biāo)定位方法展開(kāi)研究,以字符筆畫(huà)為基礎(chǔ)特征,在前人研究的基礎(chǔ)上進(jìn)行拓展
4、,提出兩種自然場(chǎng)景下文本目標(biāo)定位方法:第一種是基于連通區(qū)域的文本定位方法。首先利用筆畫(huà)寬度轉(zhuǎn)換將原圖像轉(zhuǎn)換為筆畫(huà)寬度圖像,對(duì)筆畫(huà)寬度圖像進(jìn)行有條件搜索獲取候選字符連通區(qū)域,并利用啟發(fā)式規(guī)則過(guò)濾候選字符連通區(qū)域,之后提取候選字符區(qū)域特征,并訓(xùn)練支持向量機(jī)(SupportVectorMachine)對(duì)候選字符區(qū)域進(jìn)行驗(yàn)證,刪除非字符區(qū)域,再根據(jù)文本特點(diǎn)對(duì)字符區(qū)域進(jìn)行合并,最終得到文本目標(biāo)的位置信息。第二種是基于圖結(jié)構(gòu)的文本定位模型方法。該模型將字符個(gè)體及字符之間關(guān)系進(jìn)行抽象,首先,將候選字符視為圖節(jié)點(diǎn),提出平均角度偏差、非
5、噪聲分量、筆畫(huà)寬度向量三大特征,并由此定義字符能量,來(lái)表征節(jié)點(diǎn)對(duì)象是字符的可能性大小;之后,將相鄰候選字符間的關(guān)系視為圖的邊,根據(jù)字符間的特征相似性定義鏈接能量,來(lái)表征這兩個(gè)字符屬于同一文本的可能性大??;最后,結(jié)合字符能量和鏈接能量定義文本能量,來(lái)表征候選文本模型是真實(shí)文本概率大小,并通過(guò)設(shè)定文本能量的閾值來(lái)獲取最終符合條件的文本目標(biāo)位置。除此之外,為了使本文方法更有效的獲取文本目標(biāo)的位置信息,提出了一些預(yù)處理方法:利用保留非連續(xù)性平滑的方法來(lái)抑制自然場(chǎng)景中的噪聲和部分細(xì)小雜質(zhì)背景;通過(guò)彩色圖像邊緣檢測(cè)獲取盡可能多的文
6、本邊緣信息;提出的閉合邊緣檢測(cè)算子則是為了滿足基于圖結(jié)構(gòu)的文本定位模型三大基礎(chǔ)特征獲取的條件。在文章的最后,對(duì)比了本文提出的算法和其他算法在定位效果上的優(yōu)劣,提出了本算法的不足以及未來(lái)的期望。關(guān)鍵詞:自然場(chǎng)景;文本定位;筆畫(huà)寬度轉(zhuǎn)換;文本模型I哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractAstheelectronicdeviceswiththecamerafunctionbecomingmoreandmorepopular,afloodofpicturesandvideofilesproducedeveryminut
7、e.Tohelppeopleefficientlyandaccuratelyobtaintextinformationfrompictures,naturalcharacterrecognitiontechnologydeveloperapidly.Asoneofthemostimportantpartofcharacterrecognition,Nowadays,textlocationinnaturalsceneimagesispopularandsignificantincomputervision.Inthis
8、paper,onthebackgroundofnaturalscenes,westudythetextlocationmethodinsceneimages.Wetakethecharacterstrokeasthebasedfeature,andproposetwotextlocationalgorithmsinnaturals