====== Tesseract OCR ======
* https://github.com/tesseract-ocr/tesseract
* [[pdf:ocrmypdf|ocrmypdf]]
===== 설치 =====
==== homebrew ====
* 가장 최신버전 설치 가능
brew install tesseract tesseract-lang
==== ubuntu ====
sudo apt install tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf
* ''ocrmypdf'', ''gscan2pdf'' 와 함께 사용하면 [[:pdf|PDF]], image 인식 등을 진행할 수 있다.
===== 인식 데이터 =====
* [[https://github.com/tesseract-ocr/tessdata_fast|tessdata_fast]] 빠른 익식용 데이터. [[linux:debian|Debian Linux]] / [[linux:ubuntu|Ubuntu Linux]]에서 패키지로 설치시 기본으로 깔리는 듯.
* [[https://github.com/tesseract-ocr/tessdata_best|tessdata_best]] : LSTM 모델. 이게 더 나은 것인듯.
* ''%%--tessdata-dir%% '' 옵션으로 지정 혹은 ''TESSDATA_PREFIX'' 환경변수로 지정
* best 예
#cd ~/.config
#git clone --recursive --depth=1 https://github.com/tesseract-ocr/tessdata_best.git
#원하는 것들만 받기
mkdir -p ~/.config/tessdata_best
wget -O ~/.config/tessdata_best/kor.traineddata https://github.com/tesseract-ocr/tessdata_best/raw/main/kor.traineddata
wget -O ~/.config/tessdata_best/eng.traineddata https://github.com/tesseract-ocr/tessdata_best/raw/main/eng.traineddata
export TESSDATA_PREFIX=$HOME/.config/tessdata_best
===== 인식률 =====
* 한글 인식률이 좋지 못한 편이다.
* 여러 언어보다는 단일 언어로 인식하는게 인식률이 더 좋다.
* [[https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html|Imporoving the quality of the output]]
* 300DPI 이상 추천
* 불필요한 테두리를 crop 하고서 인식해야 인식률이 좋아진다.
* deskewing : 비스듬히 스캔된 것을 똑바로 세워서 인식해야 인식률이 좋아진다.