문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판 이전 판 다음 판 | 이전 판 다음 판 양쪽 다음 판 | ||
pdf:ocrmypdf [2023/10/23 14:47] kwon37xi |
pdf:ocrmypdf [2023/12/16 00:25] kwon37xi |
||
---|---|---|---|
줄 4: | 줄 4: | ||
* [[ocr: | * [[ocr: | ||
* [[pdf: | * [[pdf: | ||
+ | * [[https:// | ||
- | |||
- | * '' | ||
===== 설치 ===== | ===== 설치 ===== | ||
+ | |||
+ | ==== homebrew ==== | ||
+ | * [[linux: | ||
+ | |||
+ | <code sh> | ||
+ | brew install ocrmypdf tesseract tesseract-lang | ||
+ | </ | ||
+ | |||
+ | === Ubuntu === | ||
<code sh> | <code sh> | ||
sudo apt install ocrmypdf | sudo apt install ocrmypdf | ||
</ | </ | ||
+ | |||
+ | === docker === | ||
* docker 기반으로 사용하는게 편할지도 | * docker 기반으로 사용하는게 편할지도 | ||
- | * https:// | + | * https:// |
* https:// | * https:// | ||
줄 23: | 줄 33: | ||
# 이미지 보정 기능 등 추가 | # 이미지 보정 기능 등 추가 | ||
- | ocrmypdf -l kor+eng \ # 참고 : tesseract 가 하나의 언어씩만 인식할 때 인식률이 좋다는 보고가 많음. | + | |
+ | ocrmypdf -l kor+eng \ | ||
--deskew # 비틀림 보정 | --deskew # 비틀림 보정 | ||
--clean # 배경 깨끗하게 | --clean # 배경 깨끗하게 | ||
- | | + | --optimize 3 # PDF 용량 최적화. 최적화 안하려면 0 |
< | < | ||
< | < | ||
- | # OCR 재실행. 이미 OCR 된 파일에 재실행 | + | # OCR 재실행. 이미 OCR 된 파일에 재실행. 최적화 등은 수행하지 않음. |
- | ocrmypdf -l eng --redo-ocr ... | + | ocrmypdf -l eng --redo-ocr ... input.pdf output.pdf |
# OCR 없이 PDF 이미지 최적화만 실행 | # OCR 없이 PDF 이미지 최적화만 실행 | ||
- | -tesseract-timeout=0 --optimize 3 --skip-text | + | ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text |
</ | </ | ||
+ | |||
+ | ===== 인식률 높이기 ===== | ||
+ | * '' | ||
+ | * '' | ||
+ | * [[ocr: | ||
+ | |||
+ | |||
+ | ===== PDF 용량 최적화 ===== | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
====== 참조 ====== | ====== 참조 ====== | ||
* [[https:// | * [[https:// | ||