문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판 이전 판 다음 판 | 이전 판 마지막 판 양쪽 다음 판 | ||
pdf:ocrmypdf [2023/10/18 16:39] kwon37xi |
pdf:ocrmypdf [2024/01/26 16:14] kwon37xi [PDF 용량 최적화] |
||
---|---|---|---|
줄 4: | 줄 4: | ||
* [[ocr: | * [[ocr: | ||
* [[pdf: | * [[pdf: | ||
+ | * [[https:// | ||
+ | |||
- | * '' | ||
===== 설치 ===== | ===== 설치 ===== | ||
+ | |||
+ | ==== homebrew ==== | ||
+ | * [[linux: | ||
+ | |||
+ | <code sh> | ||
+ | brew install ocrmypdf tesseract tesseract-lang | ||
+ | </ | ||
+ | |||
+ | === Ubuntu === | ||
<code sh> | <code sh> | ||
sudo apt install ocrmypdf | sudo apt install ocrmypdf | ||
</ | </ | ||
+ | |||
+ | === docker === | ||
* docker 기반으로 사용하는게 편할지도 | * docker 기반으로 사용하는게 편할지도 | ||
- | * https:// | + | * https:// |
- | * https:// | + | * https:// |
===== 사용 ===== | ===== 사용 ===== | ||
줄 21: | 줄 33: | ||
# 이미지 보정 기능 등 추가 | # 이미지 보정 기능 등 추가 | ||
+ | |||
ocrmypdf -l kor+eng \ | ocrmypdf -l kor+eng \ | ||
--deskew # 비틀림 보정 | --deskew # 비틀림 보정 | ||
--clean # 배경 깨끗하게 | --clean # 배경 깨끗하게 | ||
- | | + | --optimize 3 # PDF 용량 최적화. 최적화 안하려면 0 |
< | < | ||
< | < | ||
+ | # OCR 재실행. 이미 OCR 된 파일에 재실행. 최적화 등은 수행하지 않음. | ||
+ | ocrmypdf -l eng --redo-ocr ... input.pdf output.pdf | ||
+ | |||
+ | # OCR 없이 PDF 이미지 최적화만 실행 | ||
+ | ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text input.pdf output.pdf | ||
+ | </ | ||
+ | |||
+ | ===== 인식률 높이기 ===== | ||
+ | * '' | ||
+ | * '' | ||
+ | * [[ocr: | ||
+ | |||
+ | |||
+ | ===== PDF 용량 최적화 ===== | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * 아래 docker 이미지를 통한 스크립트로 하면 '' | ||
+ | <code sh> | ||
+ | # | ||
+ | # 사용법 : pdf-opt.sh 원본.pdf | ||
+ | # 결과는 원본.opt.pdf | ||
+ | # alpine 버전은 버그가 많았음. | ||
+ | FILE_NAME_ONLY=`basename " | ||
+ | OPTIMIZED_NAME=" | ||
+ | |||
+ | docker run --rm -i --user "$(id -u):$(id -g)" --workdir /data -v " | ||
</ | </ | ||
+ | * 현재 디렉토리에 있는 것만 처리해야함. | ||
====== 참조 ====== | ====== 참조 ====== | ||
* [[https:// | * [[https:// | ||