資源描述:
《Acrobat OCR識別文本功能提取圖片文字.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、AcrobatOCR識別文本功能提取圖片文字?來源:oapdf.com 發(fā)布時間:12-04-11 編輯:李靜 Acrobat自帶的OCR識別文本功能,可以將圖片格式的PDF文件(掃描件或者圖片制作)轉(zhuǎn)換成文本文件,從而提取圖片中的文字。您可使用Acrobat識別以前已轉(zhuǎn)換成PDF掃描文檔的文本。光學(xué)字符識別(OCR)軟件允許您搜索、更正和復(fù)制掃描的PDF中的文本。要將OCR應(yīng)用于PDF,必須已經(jīng)將原始掃描儀分辨率設(shè)置為72dpi或更高。 首先確保電腦已安裝AdobeAcrobat?! CR識別文本
2、功能的設(shè)置 1、識別單個文檔中的文本 打開掃描的PDF?! ∵x擇“文檔”>“OCR文本識別”>“使用OCR識別文本”?! ≡凇白R別文本”對話框中,選擇“頁面”下的一個選項?! 。蛇x)單擊“編輯”打開“識別文本-設(shè)置”對話框,然后按需要指定選項?! ?、識別多個文檔中的文本 在Acrobat中,選擇“文檔”>“OCR文本識別”>“使用OCR識別多個文件中的文本”。 在“頁面捕捉多個文件”對話框中,單擊“添加文件”,選擇“添加文件”,“添加文件夾”或“添加打開的文件”。然后選擇相應(yīng)的文件或文件夾?!?/p>
3、 在“輸出選項”對話框中,指定輸出文件的目標(biāo)文件夾、文件名首選項以及輸出格式?! ≡凇白R別文本-設(shè)置”對話框中,指定選項,然后單擊“確定”?! ?、識別PDF包中組件PDF中的文本 在PDF包中選擇一個或多個掃描的PDF?! ∵x擇“文檔”>“OCR文本識別”>“使用OCR識別文本”。 在“識別文本-設(shè)置”對話框中指定選項。 OCR識別文本功能的使用 1.捕獲掃描頁面 通過Acrobat的“使用OCR識別文本”功能可以將掃描頁面由圖像轉(zhuǎn)換成可搜索的PDF文檔。Acrobat允許以3種格式捕獲掃描頁
4、面:格式化的文本和圖形PDF、可搜索的圖像PDF(精確)以及可搜索的圖像PDF(緊湊)??伤阉鞯膱D像PDF在PDF文檔中將掃描圖像放在前景中,而將捕獲的文本放在不可見的背景層中?! 〔东@掃描頁面的具體步驟如下所述: (1)選擇“文檔>使用OCR識別文本>開始”命令,彈出“識別文本”對話框。 (2)選擇要捕獲的頁面?! 。?)單擊“編輯”按鈕,彈出“識別文本-設(shè)置”對話框,選擇“OCR識別的主要語言”和“PDF輸出樣式”選項,然后單擊“確定”按鈕。 ?。?)單擊“確定”按鈕開始OCR識別文本過程?! ∈?/p>
5、用OCR識別文本不僅可將掃描頁面中的文字內(nèi)容轉(zhuǎn)換成可搜索文本,另外還可以校正由于在掃描過程中導(dǎo)致的頁面歪斜?! ?.修正轉(zhuǎn)化文本 Acrobat在識別掃描頁面是,可能由于字跡模糊等原因不能正確識別文本,Acrobat將對存在疑點處標(biāo)記為“捕獲疑點”。被標(biāo)記為“捕獲疑點”之處以文字捕獲前的位圖顯示,而該文字的替換字符則在一個不可見的底層上?! ∵x擇“文檔>使用OCR識別文本>查找所有的OCR可疑物”命令,所有標(biāo)記為“捕獲疑點”之處以紅色線框顯示。選擇“文檔>使用OCR識別文本>查找第一個OCR可疑物”命令
6、,彈出“查找元素”對話框?! 螕簟安檎蚁乱粋€”按鈕,疑點處的位圖依次顯示在該對話框中,同時當(dāng)前工具切換到“TouchUp文本工具”,并選中替換的文本,如果替換文本沒有錯誤,可以單擊“接受和查找”按鈕,疑點處的位圖將被接受的文本替換顯示,如果替換文本不正確,可以使用“TouchUp文本工具”先進(jìn)行修正,然后再單擊“接受和查找”按鈕進(jìn)行確認(rèn)。