如何把pdf變成文字

如何把pdf變成文字

ID:32420431

大?。?92.50 KB

頁數(shù):7頁

時(shí)間:2019-02-04

如何把pdf變成文字_第1頁
如何把pdf變成文字_第2頁
如何把pdf變成文字_第3頁
如何把pdf變成文字_第4頁
如何把pdf變成文字_第5頁
資源描述:

《如何把pdf變成文字》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫

1、OCR:如何把掃描版pdf轉(zhuǎn)變成文字版?2011-07-3111:28:39我經(jīng)常在閱讀掃描格式pdf的時(shí)候,把它們抓取為文字格式,當(dāng)然得是好書??赡苡信笥巡磺宄cr,它就是把文字從圖像中識別抓取出來。文字版pdf的好處就是便于傳播、引用,視覺上清晰,具有更大的處理空間,乃至可以二次制作,比如出于手機(jī)什么的閱讀需要。但是,ocr過程中的文字識別率不會是100%,需要進(jìn)一步校對,所以在這個意義上粗制濫造的文字版pdf還不如掃描原版的價(jià)值。我分享自己的一點(diǎn)ocr經(jīng)驗(yàn),也是想更多的朋友制作文字版好書,也因?yàn)楹芏嗟呐笥巡皇煜cr。ocr軟件很多,這里只

2、根據(jù)自己的經(jīng)驗(yàn)進(jìn)行推薦,而忽略其他。首先說單頁pdf的ocr這種單張圖片式的文字抓取我強(qiáng)烈推薦JOCR。JOCR的優(yōu)點(diǎn)是免費(fèi)綠色輕量(綠色就是不需要安裝),體積小到幾乎不可思議的不到100kb。然后不可想象的是,這么小的軟件其識別率還非常高,而且可以抓取20多種語言,包括中文繁體,夫復(fù)何求。JOCR(原版、漢化版、使用說明、MODI及“繁體中文識別”文件)下載:http://vdisk.weibo.com/s/uImX網(wǎng)路上有漢化版,其實(shí)不必。它常用功能很簡單,一般就是第一步“CaptureRegion(選取需要ocr的區(qū)域)”,然后在語言框選擇語

3、言,最后“Recognize(識別)”,于是就為你蹦出一個txt文本,接下去你還可以就著這文本進(jìn)行校對。注意:1、要成功使用JOCR,首先得保證在安裝office時(shí)選擇了“完整”安裝選項(xiàng),因?yàn)镴OCR的運(yùn)轉(zhuǎn)是依托于MicrosoftOfficeDocumentImaging(MODI,中文OCR辨識引擎)的。Office2003的缺省安裝是第一次使用MODI時(shí)安裝,Office2007的缺省安裝是不裝,都需要自己主動安裝一下。如果你沒有完整安裝office,也可以只是再安裝一下MODI,微軟官方有下載。2、如果需要抓取繁體,而你使用的是簡體wind

4、ows系統(tǒng)(即比如安裝的是簡體中文Office2003),那么請將下列“繁體中文識別”文件復(fù)制到C:ProgramFilesCommonFilesMicrosoftSharedMODI11.0TCCODE.UNITCPRINT.DATTCPRINT2.DATTCSERHT.DATTCTREE.DATTW_BU.DATTW_UB.DATTWBIG532.DLL然后雙擊reg文件導(dǎo)入注冊表,ok。注意,導(dǎo)入注冊表時(shí)必須先關(guān)閉所有MODI窗口。此時(shí),在MODI的OCR選項(xiàng)卡里,“OCR語言”中即可看到“中文(繁體)”,也就是說依托MODI運(yùn)作的

5、ocr軟件具有了繁體識別功能?;蛟S你要問,JOCR的使用特別是繁體不免麻煩了一點(diǎn)點(diǎn)。我的回答是,推薦JOCR正是因?yàn)樗玫組ODI及其繁體識別功能。一般的ocr軟件往往對繁體無措或者效果不如意,而微軟MODI的效果非常的理想,我上一篇日記《馬克思——披上科學(xué)外衣的詩人革命家》用的就是它,幾乎就沒有改正幾個字(原文是豎排的)。所以說磨刀不誤砍柴工,而且是微軟自帶的,省事省心。然后說pdf批量ocr一本pdf格式的書籍有很多頁,自然要用批量才行。一般認(rèn)為最強(qiáng)大的專業(yè)ocr軟件是ABBYYFineReader,“世界排名第一的OCR文字識別工具”是也

6、。ABBYYFineReader不依托MODI運(yùn)作,不免費(fèi)體積也很龐大,不過微軟免費(fèi)的MODI才5M多一點(diǎn)點(diǎn)。一個好狀況是,熱心的網(wǎng)友已經(jīng)制作了中文綠色版,見“最好的OCR識別軟件:ABBYYFineReader中文綠色版”http://www.portablesoft.org/abbyy-finereader/。我自己比較ABBYYFineReader與MODI的效果,個人覺得MODI略勝一籌(主要在文字識別率上),至少難分上下。MODI抓取的結(jié)果只是文字,沒有字體版式啥的,而ABBYYFineReader貌似有還原版面的追求,所以可能反而把問題

7、復(fù)雜化(特別是在word中作修改可能叫你崩潰,當(dāng)然你需要版面什么的另當(dāng)別論)。所以有鑒于此而推薦采用微軟自帶的MODI。MODI的一般使用方法是:在打開的pdf文檔“文件”-“打印”-“名稱”中選擇“microsoftofficedocumentimagingwriter”,打印你需要的(所有)頁面(這個乃至后邊生成的文件地址最好在桌面一類,不然找起來費(fèi)神)。于是,它生成一個后綴名為mdi的文件。你打開這個mdi文件,在“工具”中選擇“使用OCR識別文本”,然后開始可能是很漫長的識別過程,電腦不給力的話一本數(shù)百頁的書可能漫長到兩三個小時(shí)。識別結(jié)束后

8、,你再在“工具”中選擇“將文本發(fā)送到Word”,然后它為你生成一個后綴名為htm的文件,里頭就有你想要的文字了。關(guān)于ocr

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。