사용자 도구

사이트 도구


ocr:tesseract

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

양쪽 이전 판 이전 판
다음 판
이전 판
ocr:tesseract [2023/10/18 14:56]
kwon37xi
ocr:tesseract [2023/12/07 21:50] (현재)
kwon37xi [인식 데이터]
줄 4: 줄 4:
  
 ===== 설치 ===== ===== 설치 =====
 +==== homebrew ====
 +  * 가장 최신버전 설치 가능
 +
 +<code sh>
 +brew install tesseract tesseract-lang
 +</code>
 +
 +==== ubuntu ====
 +
 <code sh> <code sh>
 sudo apt install  tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf sudo apt install  tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf
줄 17: 줄 26:
  
 <code sh> <code sh>
-cd ~/.config +#cd ~/.config 
-git clone --recursive --depth=1 https://github.com/tesseract-ocr/tessdata_best.git+#git clone --recursive --depth=1 https://github.com/tesseract-ocr/tessdata_best.git 
 +#원하는 것들만 받기 
 + 
 +mkdir -p ~/.config/tessdata_best 
 + 
 +wget -O ~/.config/tessdata_best/kor.traineddata https://github.com/tesseract-ocr/tessdata_best/raw/main/kor.traineddata 
 +wget -O ~/.config/tessdata_best/eng.traineddata https://github.com/tesseract-ocr/tessdata_best/raw/main/eng.traineddata
  
 export TESSDATA_PREFIX=$HOME/.config/tessdata_best export TESSDATA_PREFIX=$HOME/.config/tessdata_best
-...+
 </code> </code>
 ===== 인식률 ===== ===== 인식률 =====
   * 한글 인식률이 좋지 못한 편이다.   * 한글 인식률이 좋지 못한 편이다.
 +  * 여러 언어보다는 단일 언어로 인식하는게 인식률이 더 좋다.
   * [[https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html|Imporoving the quality of the output]]   * [[https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html|Imporoving the quality of the output]]
   * 300DPI 이상 추천   * 300DPI 이상 추천
ocr/tesseract.1697608560.txt.gz · 마지막으로 수정됨: 2023/10/18 14:56 저자 kwon37xi