문서의 선택한 두 판 사이의 차이를 보여줍니다.
다음 판 | 이전 판 | ||
ocr:tesseract [2023/10/13 11:20] kwon37xi 만듦 |
ocr:tesseract [2023/12/07 21:50] (현재) kwon37xi [인식 데이터] |
||
---|---|---|---|
줄 1: | 줄 1: | ||
====== Tesseract OCR ====== | ====== Tesseract OCR ====== | ||
* https:// | * https:// | ||
+ | * [[pdf: | ||
+ | |||
+ | ===== 설치 ===== | ||
+ | ==== homebrew ==== | ||
+ | * 가장 최신버전 설치 가능 | ||
+ | |||
+ | <code sh> | ||
+ | brew install tesseract tesseract-lang | ||
+ | </ | ||
+ | |||
+ | ==== ubuntu ==== | ||
+ | |||
+ | <code sh> | ||
+ | sudo apt install | ||
+ | </ | ||
+ | |||
+ | * '' | ||
+ | |||
+ | ===== 인식 데이터 ===== | ||
+ | * [[https:// | ||
+ | * [[https:// | ||
+ | * '' | ||
+ | * best 예 | ||
+ | |||
+ | <code sh> | ||
+ | #cd ~/.config | ||
+ | #git clone --recursive --depth=1 https:// | ||
+ | #원하는 것들만 받기 | ||
+ | |||
+ | mkdir -p ~/ | ||
+ | |||
+ | wget -O ~/ | ||
+ | wget -O ~/ | ||
+ | |||
+ | export TESSDATA_PREFIX=$HOME/ | ||
+ | |||
+ | </ | ||
+ | ===== 인식률 ===== | ||
+ | * 한글 인식률이 좋지 못한 편이다. | ||
+ | * 여러 언어보다는 단일 언어로 인식하는게 인식률이 더 좋다. | ||
* [[https:// | * [[https:// | ||
+ | * 300DPI 이상 추천 | ||
+ | * 불필요한 테두리를 crop 하고서 인식해야 인식률이 좋아진다. | ||
+ | * deskewing : 비스듬히 스캔된 것을 똑바로 세워서 인식해야 인식률이 좋아진다. | ||
+ |