문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판 이전 판 다음 판 | 이전 판 | ||
ocr:tesseract [2023/10/14 13:23] kwon37xi [인식 데이터] |
ocr:tesseract [2023/12/07 21:50] (현재) kwon37xi [인식 데이터] |
||
---|---|---|---|
줄 1: | 줄 1: | ||
====== Tesseract OCR ====== | ====== Tesseract OCR ====== | ||
* https:// | * https:// | ||
+ | * [[pdf: | ||
===== 설치 ===== | ===== 설치 ===== | ||
+ | ==== homebrew ==== | ||
+ | * 가장 최신버전 설치 가능 | ||
+ | |||
+ | <code sh> | ||
+ | brew install tesseract tesseract-lang | ||
+ | </ | ||
+ | |||
+ | ==== ubuntu ==== | ||
+ | |||
<code sh> | <code sh> | ||
sudo apt install | sudo apt install | ||
줄 10: | 줄 20: | ||
===== 인식 데이터 ===== | ===== 인식 데이터 ===== | ||
- | * [[https:// | + | * [[https:// |
- | * [[https:// | + | * [[https:// |
- | * [[https:// | + | * '' |
- | * '' | + | * best 예 |
+ | |||
+ | <code sh> | ||
+ | #cd ~/.config | ||
+ | #git clone --recursive --depth=1 https:// | ||
+ | #원하는 것들만 받기 | ||
+ | |||
+ | mkdir -p ~/ | ||
+ | |||
+ | wget -O ~/ | ||
+ | wget -O ~/ | ||
+ | |||
+ | export TESSDATA_PREFIX=$HOME/ | ||
+ | |||
+ | </ | ||
===== 인식률 ===== | ===== 인식률 ===== | ||
* 한글 인식률이 좋지 못한 편이다. | * 한글 인식률이 좋지 못한 편이다. | ||
+ | * 여러 언어보다는 단일 언어로 인식하는게 인식률이 더 좋다. | ||
* [[https:// | * [[https:// | ||
* 300DPI 이상 추천 | * 300DPI 이상 추천 | ||
* 불필요한 테두리를 crop 하고서 인식해야 인식률이 좋아진다. | * 불필요한 테두리를 crop 하고서 인식해야 인식률이 좋아진다. | ||
* deskewing : 비스듬히 스캔된 것을 똑바로 세워서 인식해야 인식률이 좋아진다. | * deskewing : 비스듬히 스캔된 것을 똑바로 세워서 인식해야 인식률이 좋아진다. | ||
+ |