사용자 도구

사이트 도구


ocr:tesseract

Tesseract OCR

설치

homebrew

  • 가장 최신버전 설치 가능
brew install tesseract tesseract-lang

ubuntu

sudo apt install  tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf
  • ocrmypdf, gscan2pdf 와 함께 사용하면 PDF, image 인식 등을 진행할 수 있다.

인식 데이터

  • tessdata_fast 빠른 익식용 데이터. Debian Linux / Ubuntu Linux에서 패키지로 설치시 기본으로 깔리는 듯.
  • tessdata_best : LSTM 모델. 이게 더 나은 것인듯.
  • --tessdata-dir <PATH> 옵션으로 지정 혹은 TESSDATA_PREFIX 환경변수로 지정
  • best 예
#cd ~/.config
#git clone --recursive --depth=1 https://github.com/tesseract-ocr/tessdata_best.git
#원하는 것들만 받기
 
mkdir -p ~/.config/tessdata_best
 
wget -O ~/.config/tessdata_best/kor.traineddata https://github.com/tesseract-ocr/tessdata_best/raw/main/kor.traineddata
wget -O ~/.config/tessdata_best/eng.traineddata https://github.com/tesseract-ocr/tessdata_best/raw/main/eng.traineddata
 
export TESSDATA_PREFIX=$HOME/.config/tessdata_best

인식률

  • 한글 인식률이 좋지 못한 편이다.
  • 여러 언어보다는 단일 언어로 인식하는게 인식률이 더 좋다.
  • 300DPI 이상 추천
  • 불필요한 테두리를 crop 하고서 인식해야 인식률이 좋아진다.
  • deskewing : 비스듬히 스캔된 것을 똑바로 세워서 인식해야 인식률이 좋아진다.
ocr/tesseract.txt · 마지막으로 수정됨: 2023/12/07 21:50 저자 kwon37xi