資源描述:
《場景文字定位方法地研究及實(shí)現(xiàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號密級注1UDC學(xué)位論文場景文字定位方法研究及實(shí)現(xiàn)(題名和副題名)黃自力(作者姓名)指導(dǎo)教師李宏亮教授電子科技大學(xué)成都(姓名、職稱、單位名稱)申請學(xué)位級別碩士專業(yè)學(xué)位類別工程碩士工程領(lǐng)域名稱電子與通信工程提交論文日期2014.03論文答辯日期2014.05學(xué)位授予單位和日期電子科技大學(xué)2014年06月答辯委員會主席評閱人注1:注明《國際十進(jìn)分類法UDC》的類號。RESEARCHANDIMPLEMENTATIONONSCENETEXTLOCALIZATIONAMasterThesisSubmittedtoUniversityofElectronic
2、ScienceandTechnologyofChinaMajor:ElectronicsandCommunicationsEngineeringAuthor:ZiliHuangAdvisor:ProfessorHongliangLiSchool:SchoolofElectronicEngineering獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同
3、工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。作者簽名:日期:年月日論文使用授權(quán)本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)作者簽名:導(dǎo)師簽名:日期:年月摘要摘要文字,承載著信息傳遞的使命,而圖片,作為文字字符的載體,在信息大爆炸的今天,遍布在網(wǎng)絡(luò)媒體、街頭標(biāo)識等各個場
4、景中,面對龐大的信息量,如何有效的進(jìn)行檢索、理解也就成為計(jì)算機(jī)視覺重要的研究方向,而場景文字定位作為基于內(nèi)容的信息檢索的基礎(chǔ)也就引來了越來越多研究者的關(guān)注。然而,場景文字定位由于場景的復(fù)雜性,以及文字本身的多樣性,仍然是一個極具挑戰(zhàn)性的問題,本文主要圍繞如何從自然場景中定位出文字進(jìn)行算法研究,研究內(nèi)容主要集中在:1、提出了基于約束筆劃寬度變換的場景文字預(yù)處理。首先根據(jù)文字這一特定對象,在傳統(tǒng)邊緣檢測基礎(chǔ)上,加入去非閉合曲線以及Hough變換去直線段算法,然后改進(jìn)筆劃寬度變換(SWT),融入局部鄰域顏色以及梯度方向一致性約束,提出局部鄰域一致性約束的筆
5、劃寬度變換(LNC-SWT),并進(jìn)行筆劃寬度閾值及單邊處理,得到筆劃寬度變換圖。2、設(shè)計(jì)了基于字符特征的場景字符連通域構(gòu)建,過濾掉大量非文字區(qū)域。首先基于筆劃寬度一致的文字特征,將像素點(diǎn)連接成候選字符連通域,然后分析字符的結(jié)構(gòu)以及分布特點(diǎn),提取字符的底層特征以及構(gòu)建字符的高層特征,其中字符高層特征包括:1、基于梯度以及二值模式的字符連通域特征2、基于鏈碼的輪廓變化直方圖,訓(xùn)練字符級SVM分類器,對字符連通域進(jìn)行過濾,得到最后的字符連通域構(gòu)建。3、為進(jìn)一步過濾背景,設(shè)計(jì)了基于文本行特征的場景文字定位。在字符連通域構(gòu)建基礎(chǔ)上,本文根據(jù)文本的分布特點(diǎn)及文字
6、間的聯(lián)系,將字符連通域連接成候選文本行,然后基于對文字間共性的描述,構(gòu)建了基于類內(nèi)離散程度的文本行特征(ICDT),同時構(gòu)建基于統(tǒng)計(jì)信息的文本行特征,包括:1、基于梯度以及紋理信息的文本行特征;2、基于跳變次數(shù)直方圖的文本行特征,最后級聯(lián)兩大類特征,訓(xùn)練文本行級SVM分類器,過濾候選文本行,得到最終的文字定位輸出。為更好的對算法進(jìn)行評價(jià),本文在ICDAR2005和2011數(shù)據(jù)庫以及本文自己構(gòu)建的中文數(shù)據(jù)庫上進(jìn)行測試評價(jià),并與他人的方法作對比。實(shí)驗(yàn)結(jié)果證明本文算法有效,能對場景文字進(jìn)行定位。關(guān)鍵詞:場景文字定位,字符特征,文本行特征,場景字符連通域,局
7、部鄰域一致性約束的筆劃寬度變換(LNC-SWT)IABSTRACTABSTRACTTheuseoftext,asthemeansofinformationtransmission,andimage,asthecarrieroftext,spreadsovermanythescenarios,suchasnetworkmediaandstreetsigns,withtheexplosiveinformationavailabletoday.So,howtoeffectivelyretrieveandunderstandsuchhugeamountofi
8、nformationhasbecomeanimportantresearchdirectionincompu