Tesseract OCR

설치

homebrew

가장 최신버전 설치 가능

brew install tesseract tesseract-lang

ubuntu

sudo apt install  tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf

ocrmypdf, gscan2pdf 와 함께 사용하면 PDF, image 인식 등을 진행할 수 있다.

인식 데이터

tessdata_fast 빠른 익식용 데이터. Debian Linux / Ubuntu Linux에서 패키지로 설치시 기본으로 깔리는 듯.
tessdata_best : LSTM 모델. 이게 더 나은 것인듯.
--tessdata-dir <PATH> 옵션으로 지정 혹은 TESSDATA_PREFIX 환경변수로 지정
best 예

#cd ~/.config
#git clone --recursive --depth=1 https://github.com/tesseract-ocr/tessdata_best.git
#원하는 것들만 받기
 
mkdir -p ~/.config/tessdata_best
 
wget -O ~/.config/tessdata_best/kor.traineddata https://github.com/tesseract-ocr/tessdata_best/raw/main/kor.traineddata
wget -O ~/.config/tessdata_best/eng.traineddata https://github.com/tesseract-ocr/tessdata_best/raw/main/eng.traineddata
 
export TESSDATA_PREFIX=$HOME/.config/tessdata_best

인식률

한글 인식률이 좋지 못한 편이다.
여러 언어보다는 단일 언어로 인식하는게 인식률이 더 좋다.
Imporoving the quality of the output
300DPI 이상 추천
불필요한 테두리를 crop 하고서 인식해야 인식률이 좋아진다.
deskewing : 비스듬히 스캔된 것을 똑바로 세워서 인식해야 인식률이 좋아진다.

권남

사이드바

목차

Tesseract OCR

설치

homebrew

ubuntu

인식 데이터

인식률

권남

사용자 도구

사이트 도구

사이드바

목차

Tesseract OCR

설치

homebrew

ubuntu

인식 데이터

인식률

문서 도구