사용자 도구

사이트 도구


ocr:tesseract

문서의 이전 판입니다!


Tesseract OCR

설치

sudo apt install  tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf
  • ocrmypdf, gscan2pdf 와 함께 사용하면 PDF, image 인식 등을 진행할 수 있다.

인식 데이터

  • tesdata_fast 빠른 익식용 데이터. Ubuntu 설치시 기본으로 깔리는 듯.
  • testdata : best + legacy : 이게 제일 인식률 좋은건가?
  • –tessdata-dir <PATH> 옵션으로 지정

인식률

  • 한글 인식률이 좋지 못한 편이다.
  • 300DPI 이상 추천
  • 불필요한 테두리를 crop 하고서 인식해야 인식률이 좋아진다.
  • deskewing : 비스듬히 스캔된 것을 똑바로 세워서 인식해야 인식률이 좋아진다.
ocr/tesseract.1697257323.txt.gz · 마지막으로 수정됨: 2023/10/14 13:22 저자 kwon37xi