問題描述
如何提高讀取正方體的準確性? (How to improve read tesseract accuracy?)
我想得到以下預期結果。您能給我一些改進結果的建議嗎?
- 輸入圖像
- 預期結果
流 動 資 産
固 定 資 産
- 實際結果
産 産
資 資
動 定
- 重現結果
$ git clone https://github.com/zono/ocr.git
$ cd ocr
$ git checkout 0f2541eac302dd1fe2efbbd3b36e7ba40a99d232
$ docker‑compose up ‑d
$ docker exec ‑it ocr /bin/bash
# /usr/local/bin/tesseract /ocr/src/bssample7.png stdout ‑l jpn
産 産
資 資
動 定
- 版本
$ docker ‑v
Docker version 19.03.5, build 633a0ea
# tesseract ‑v
tesseract 4.1.1‑rc2‑22‑g08899
leptonica‑1.79.0
libjpeg 8d (libjpeg‑turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11
參考解法
方法 1:
you need to use another page‑segmentation‑method to get the expected result.
Try to append ‑‑psm 6 to your command to make it look like this:
$ tesseract /ocr/src/bssample7.png outputfilename ‑l jpn ‑‑psm 6
Here you can read about the different methods:
https://github.com/tesseract‑ocr/tesseract/wiki/ImproveQuality#page‑segmentation‑method
Kind regards
方法 2:
I found the solution from Tesseract OCR Read Horizontally rather than Vertically C#
# /usr/local/bin/tesseract /ocr/src/bssample7.png stdout ‑l jpn ‑‑psm 6
流 動 資 産
固 定 資 産