資源描述:
《基于深度學習的端到端場景文本識別方法研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、碩士學位論文基于深度學習的端到端場景文本識別方法研究作者姓名劉衍平學科專業(yè)信號與信息處理指導教師高學副教授所在學院電子與信息學院論文提交日期2018年4月Researchonend-to-endscenetextrecognitionmethodbasedondeeplearningADissertationSubmittedfortheDegreeofMasterCandidate:LiuYanpingSupervisor:Prof.GaoXueSouthChinaUniversityofTechnologyGuangzhou,China摘要
2、圖片能帶給人們豐富的信息,而文字作為人類智慧的結(jié)晶,其所包含的信息量往往要比色彩紋理等攜帶的信息量大得多,因此對場景圖像中文字的識別和理解顯得十分有必要和重要。由于場景文本圖像的復雜性,傳統(tǒng)OCR文字識別不再適應這種新的挑戰(zhàn)。人工智能及計算機科學技術的新突破,使得基于深度學習算法理論的場景文本識別方法較傳統(tǒng)OCR技術有了較大的提升,但離實際的運用還有不小的差距。因此,本文進行基于深度學習的場景文本識別方法研究具有重要的理論研究意義及廣泛的應用前景。本文旨在研究自然場景下中文文本圖像的文本識別方法,提出一種基于卷積神經(jīng)網(wǎng)絡及遞歸神經(jīng)網(wǎng)絡的端到端場
3、景文本識別模型與方法。與傳統(tǒng)文本識別方法相比,該模型與方法具有更好的特征學習和特征分類能力。本文完成的主要工作包括:1、提出了一種基于可變形卷積網(wǎng)絡的場景文本圖像特征提取模型。該模型利用可變形卷積神經(jīng)網(wǎng)絡實現(xiàn)了文本圖像特征的自動提取,與其他模型相比具有更好的特征學習能力,對復雜場景文本圖像的識別具有更好的魯棒性,尤其表現(xiàn)在文本圖像中字體存在幾何變形變換時,魯棒性更好。利用本文提出的特征提取模型,能較好地提取場景文本圖像中的特征,可以有效改善文本識別的性能。2、提出了一種改進的Encoder-Decoder框架中的注意力機制計算模型。標準注意力機
4、制通常采用全局注意力的方式進行解碼,并且當前時刻的輸入為全部輸入信息的加權和。改進后的注意力機制采用了局部注意力的方式,且當前時刻的輸入為局部輸入信息的加權卷積平均,即先對局部輸入信息求解權重因子,各局部輸入信息依據(jù)權重因子進行加權后,進行卷積操作產(chǎn)生多個新的輸入信息,最后將多個新輸入信息的平均值作為當前時刻的輸入。實驗結(jié)果表明,本文注意力機制的改進可以提高0.5%文本識別的準確率。3、提出了一種改進的解碼輸出后處理操作?,F(xiàn)有的后處理操作通常采用純搜索算法或者融合了簡單語言模型的搜索算法,其中有些搜索算法存在因搜索簡單而性能較差或因搜索復雜而耗
5、時偏長的現(xiàn)象。改進后的后處理操作在不降低解碼性能的前提下減少了搜索空間和時間,并融合了有效的統(tǒng)計語言模型。實驗結(jié)果表明,本文改進的編碼輸出后處理可以提高解碼效率和解碼準確率。4、提出了一種自然場景下復雜文本圖像的數(shù)據(jù)增廣方法。該方法通過對少量的真實場景文本圖像建模,使合成的圖像在字體、顏色、噪聲、仿射失真等方面更加貼近真I實文本圖像。通過本文所給的數(shù)據(jù)增廣方法,可以快速合滿足自己需要的數(shù)據(jù)集,減少數(shù)據(jù)采集的人力物力。5、提出了一種基于二維遞歸網(wǎng)絡的編碼解碼網(wǎng)絡模型。該模型可以避免文本圖像特征圖降維和利用字符結(jié)構(gòu)信息,實現(xiàn)了端到端的文字識別。在傳
6、統(tǒng)的Encoder-Decoder框架中,通常采用一維遞歸神經(jīng)網(wǎng)絡作為其編碼解碼的核心結(jié)構(gòu)。然而一維遞歸神經(jīng)網(wǎng)絡僅僅適應于序列識別,因此為了采用Encoder-Decoder框架進行文本識別,通常需要將二維文本圖像的特征圖進行降維,轉(zhuǎn)為一維序列輸入到Encoder-Decoder框架中。這一操作嚴重破壞了中文漢字的空間結(jié)構(gòu),丟失了很大一部分的空間結(jié)構(gòu)特征。本文采用二維遞歸網(wǎng)絡作為Encoder-Decoder框架的核心,使其可以直接與深度卷積網(wǎng)絡中提取的特征圖相連。Encoder-Decoder框架利用了中文漢字的空間結(jié)構(gòu)特征,同時對文本圖像中
7、在縱坐標上的形變具有更好的魯棒性。實驗結(jié)果表明,較一維遞歸網(wǎng)絡,使用二維遞歸網(wǎng)絡編碼解碼可以提高2.6%的文本識別準確率,達到最高為78.6%的識別率。較標準二維遞歸網(wǎng)絡,本文的二維遞歸網(wǎng)絡在性能上接近標準二維遞歸網(wǎng)絡,具有計算速度快,網(wǎng)絡模型設計簡單等特點。關鍵字:文本識別;深度學習;卷積神經(jīng)網(wǎng)絡;Encoder-Decoder;注意力機制IIAbstractPicturescanbringrichinformationtopeople,andwordsasthecrystallizationofhumanwisdom,theamountof
8、informationtheycontainisoftenmuchlargerthantheamountofinformationcarriedbyt