資源描述:
《圖片文字提取系統(tǒng)的設計與實現(xiàn)文獻綜述》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、文獻綜述圖片文字提取系統(tǒng)的設計與實現(xiàn)一、前言部分圖片文字的檢測與識別技術(shù)在計算機網(wǎng)絡日益發(fā)展的今天有著大量的應用,特別是對于基于內(nèi)容的圖片或視頻過濾、檢索等應用來講,有重要意義,它可以幫助我們了解圖片內(nèi)容或者視頻內(nèi)容[1]。圖片中的文字可分為兩大類:一類是圖片中場景本身包含的文字,稱為場景文字;另一類是圖片后期制作中加入的文字,稱為人工文字。一般人工文字的特點:文字位于前端,且不會被遮擋;文字一半是單色的;文字大小在一幅圖片中固定,并且寬度和高度答題相同,從滿足人眼視覺感受的角度來說,圖片中文字的尺寸不會過大也不會過?。晃淖值姆植急容^集中;文字的排列一
2、般為水平方向或是垂直方向;多行文字之間,以及單行內(nèi)各個字之間存在不同于文字區(qū)域的空隙等[2]。而場景文字的特點卻與之正好相反:文字和其他自然景物混雜在一起,背景復雜;文字的顏色多種多樣;文字的字體和大小復雜多變;光照的變化等[3]。在分析圖像算法之前,我們先了解一下我們所要分析的BMP位圖的基本知識。BMP是英文Bitmap(位圖)的簡寫,它是Windows操作系統(tǒng)中的標準圖像文件格式,能夠被多種Windows應用程序所支持。位圖文件可看成由4個部分組成:位圖文件頭(bitmap-fileheader)、位圖信息頭(bitmap-information
3、header)、彩色表(colortable)和定義位圖的字節(jié)陣列。圖像邊緣的定義。圖像的大部分信息都存在于圖像的邊緣中,主要表現(xiàn)為圖像局部特征的不連續(xù)性,即圖像中灰度變化比較劇烈的地方。因此,我們把邊緣定義為圖像中灰度發(fā)生急劇變化的區(qū)域邊界。根據(jù)灰度變化的劇烈程度,通常將邊緣劃分為階躍狀和屋頂狀兩種類型。階躍邊緣兩邊的灰度值變化明顯,而屋頂邊緣位于灰度值增加與減少的交界處。那么,對階躍邊緣和屋頂邊緣分別求取一階、二階導數(shù)就可以表示邊緣點的變化。因此,對于一個階躍邊緣點,其灰度變化曲線的一階導數(shù)在該點達到極大值,二階導數(shù)在該點與零交叉;對于一個屋頂邊緣
4、點,其灰度變化曲線的一階導數(shù)在該點與零交叉;二階導數(shù)在該點達到極大值[4]。圖像二值化對于提取文本信息非常重要。二值化的結(jié)果好壞,直接影響著最終的處理結(jié)果。對于文本標簽的提取,如果能夠?qū)D像文字區(qū)域合適二值化,就可以應用基于區(qū)域的灰度聚類方法實現(xiàn)文字區(qū)域的檢測定位[1]。通過參考了2002-2009年間發(fā)表于《計算機應用研究》、《計算機應用》、《光學技術(shù)》、《計算機科學》、《計算機工程與設計》、《計算機工程與應用》等學術(shù)雜志中的研究論文,借鑒了天津理工大學學報、通信學報、延邊大學學報(自然科學版)、電子與信息學報等大學學報文章,通過分析和總結(jié)這些文章,
5、對圖片文字提取的算法有了深刻的理解。二、主題部分(一)圖片提取技術(shù)的歷史背景隨著計算機科學的飛速發(fā)展,以圖像為主的多媒體信息迅速成為重要的信息傳遞媒介。從圖像中提取文字屬于信息智能化處理的前沿課題,是當前人工智能與模式識別領(lǐng)域中的研究熱點。文字具有高級語義特征,因此圖像中的文本是圖像內(nèi)容的一個重要來源,如果這些文本能自動地被檢測、分割、識別出來,則對圖像語義的自動理解、索引和檢索是非常有價值的。所以,研究圖片文字提取就具有了重要的實際意義。靜態(tài)圖片中文本提取方面的文獻不是很豐富,之前的研究更多關(guān)注文檔圖像的分析和處理.而對于復雜圖像中的文本或者嵌入圖像
6、的文本標簽進行提取和分析研究剛剛引起人們的興趣.目前提出的紋理特征主要包括有原始像素抽樣[5]、局部方差[6]、梯度分布[7]、強邊緣的密度及方向分布等空域統(tǒng)計特征,以及小波、FFT、Gabor變換系數(shù)的統(tǒng)計特征,如矩、直方圖、共生矩陣等。通過梯度特征進行邊緣檢測,可以達到快速的定位效果,然而同時約束參數(shù)設置非常復雜,并且檢測錯誤率也很高;利用紋理特征決定像素塊是否屬于文字,可以在復雜背景的條件下檢測文字信息,但是計算非常耗時,而且文字精確定位的穩(wěn)定性也不夠理想;對于視頻文字,可以利用相鄰幀的相關(guān)性大體確定字幕位置,然而這種方法不能用來處理靜態(tài)圖像.另
7、外,基于支持向量機(SVM)分類器的多尺度定位算法也得到了廣泛的研究,雖然其檢測效果較好,但算法復雜,需事先有樣本進行學習分類器的訓練[8].(二)發(fā)展現(xiàn)狀——圖片文字提取算法的研究1、人工文字提取的算法(1)為了能夠清楚地辨識出每個字的結(jié)構(gòu),文字在顏色上與其背景總是存在一定差異。因此,文字提取的實質(zhì)就是描述文字圖層與背景圖層之間的差異,并以這種差異對像素進行聚類。對彩色圖像在HSV顏色空間進行色彩聚類形成顏色圖層,再通過投影算法將顏色圖層進一步細分為子圖層進行圖層分析,最后通過子圖層合并產(chǎn)生備選文字圖層,能夠良好地從各種復雜顏色背景中提取垂直或平行于
8、圖像邊緣的單色文字。具體方法:顏色聚類;子圖層分割;圖層分析;圖層合并[9]。(2)視頻文字大