문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판 이전 판 다음 판 | 이전 판 다음 판 양쪽 다음 판 | ||
pdf:ocrmypdf [2023/10/17 12:23] kwon37xi [설치] |
pdf:ocrmypdf [2023/12/07 21:40] kwon37xi [설치] |
||
---|---|---|---|
줄 3: | 줄 3: | ||
* https:// | * https:// | ||
* [[ocr: | * [[ocr: | ||
+ | * [[pdf: | ||
* '' | * '' | ||
+ | |||
+ | |||
===== 설치 ===== | ===== 설치 ===== | ||
+ | |||
+ | ==== homebrew ==== | ||
+ | * [[linux: | ||
+ | |||
+ | <code sh> | ||
+ | brew install ocrmypdf tesseract tesseract-lang | ||
+ | </ | ||
+ | |||
+ | === Ubuntu === | ||
<code sh> | <code sh> | ||
sudo apt install ocrmypdf | sudo apt install ocrmypdf | ||
</ | </ | ||
- | | + | |
+ | === docker === | ||
+ | * docker 기반으로 사용하는게 편할지도 | ||
+ | | ||
+ | * https:// | ||
===== 사용 ===== | ===== 사용 ===== | ||
줄 18: | 줄 34: | ||
# 이미지 보정 기능 등 추가 | # 이미지 보정 기능 등 추가 | ||
+ | |||
ocrmypdf -l kor+eng \ | ocrmypdf -l kor+eng \ | ||
--deskew # 비틀림 보정 | --deskew # 비틀림 보정 | ||
--clean # 배경 깨끗하게 | --clean # 배경 깨끗하게 | ||
- | | + | --optimize 3 # PDF 용량 최적화. 최적화 안하려면 0 |
< | < | ||
< | < | ||
+ | # OCR 재실행. 이미 OCR 된 파일에 재실행. 최적화 등은 수행하지 않음. | ||
+ | ocrmypdf -l eng --redo-ocr ... input.pdf output.pdf | ||
+ | |||
+ | # OCR 없이 PDF 이미지 최적화만 실행 | ||
+ | ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text input.pdf output.pdf | ||
</ | </ | ||
+ | |||
+ | ===== 인식률 높이기 ===== | ||
+ | * '' | ||
+ | * '' | ||
+ | * [[ocr: | ||
+ | |||
+ | |||
+ | ===== PDF 용량 최적화 ===== | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
====== 참조 ====== | ====== 참조 ====== | ||
* [[https:// | * [[https:// | ||