讓 tesseract 只識別數字 (Make tesseract recognise numbers only)


問題描述

讓 tesseract 只識別數字 (Make tesseract recognise numbers only)

I am trying to refine an OCR prog I made to read the layout of a certain image that I am using. Right now, I would like my OCR prog to recognise only digits 0-9. 

I tried to follow the solution from the question:

Limit characters tesseract is looking for

But I got stuck in the part where I have to call tesseract as:

tesseract input.tif output nobatch letters  

where does this go?


參考解法

方法 1:

i had the same issue using python, wit tesseract 3 Assuming further readers may do so.

from here : https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits

and here: https://github.com/madmaze/pytesseract/blob/27fed535bf1eb665ec991313841b177336b50f61/src/pytesseract.py#L91

i succeeded using : 

  

pytesseract.image_to_string(someimage, config='outputbase digits')

方法 2:

I posted some things about tesseract some time ago in SO: see Tesseract OCR Library - Learning Font. There is notably a link to tesseract training which will tell you how to restrain your set of characters and describe your ambiguities.

方法 3:

This question is answered on Tesseract FAQ

And here is how you can get tesseract to recognise numbers only:

Tesseract 2 - BEFORE calling an Init function or put this in a text file called tessdata/configs/digits:

tessedit_char_whitelist 0123456789

and then your command line becomes:

tesseract image.tif outputbase nobatch digits

Tesseract 3 - A digits config file is already created, so just run a tesseract command like this:

tesseract imagename outputbase digits

方法 4:

It is the command you use to tesseract run on command line.

For a better answer, we need to know if you are running tesseract on command line or as a library.

(by user1397215cgteEmmanuelvalenttojs)

參考文件

  1. Make tesseract recognise numbers only (CC BY-SA 3.0/4.0)

#tesseract #Python #ocr






相關問題

Android Studio 如何修復無法創建類文件錯誤? (Android Studio How to fix cannot create class-file error?)

Python - 程序收到信號 SIGSEGV,分段錯誤 (Python - Program received signal SIGSEGV, Segmentation fault)

Tesseract OCR 在線程中使用時崩潰 (Tesseract OCR crash when used in thread)

如何將 Leptonica Pix 對象轉換為 Android 的位圖 (How to convert Leptonica Pix Object to Android's Bitmap)

錯誤 2 在 pytesseract 中沒有這樣的文件或目錄 (Error 2 No such file or directory in pytesseract)

OCR:沒有得到想要的結果 (OCR : Not getting desired result)

在 x64 位機器上的 Visual Studio 2013 中鏈接 tesseract 和 opencv (Linking tesseract and opencv in Visual Studio 2013 on x64 bit machine)

如何提高讀取正方體的準確性? (How to improve read tesseract accuracy?)

如何將 C++ tesseract-ocr 代碼轉換為 Python? (how to convert C++ tesseract-ocr code to Python?)

Tesseract Worker.Load 掛在 Vercel 上 (Tesseract Worker.Load hangs on Vercel)

如何在窗口上使用 MinGW 編譯 tesseract baseapi.h? (How to compile tesseract baseapi.h with MinGW on window?)

Pytesseract 或 Keras OCR 從圖像中提取文本 (Pytesseract or Keras OCR to extract text from image)







留言討論