문서의 선택한 두 판 사이의 차이를 보여줍니다.
| 양쪽 이전 판 이전 판 다음 판 | 이전 판 | ||
|
pdf:ocrmypdf [2023/10/23 14:47] kwon37xi |
pdf:ocrmypdf [2024/01/26 16:15] (현재) kwon37xi [PDF 용량 최적화] |
||
|---|---|---|---|
| 줄 4: | 줄 4: | ||
| * [[ocr: | * [[ocr: | ||
| * [[pdf: | * [[pdf: | ||
| + | * [[https:// | ||
| - | |||
| - | * '' | ||
| ===== 설치 ===== | ===== 설치 ===== | ||
| + | |||
| + | ==== homebrew ==== | ||
| + | * [[linux: | ||
| + | |||
| + | <code sh> | ||
| + | brew install ocrmypdf tesseract tesseract-lang | ||
| + | </ | ||
| + | |||
| + | === Ubuntu === | ||
| <code sh> | <code sh> | ||
| sudo apt install ocrmypdf | sudo apt install ocrmypdf | ||
| </ | </ | ||
| + | |||
| + | === docker === | ||
| * docker 기반으로 사용하는게 편할지도 | * docker 기반으로 사용하는게 편할지도 | ||
| - | * https:// | + | * https:// |
| - | * https:// | + | * https:// |
| ===== 사용 ===== | ===== 사용 ===== | ||
| 줄 23: | 줄 33: | ||
| # 이미지 보정 기능 등 추가 | # 이미지 보정 기능 등 추가 | ||
| - | ocrmypdf -l kor+eng \ # 참고 : tesseract 가 하나의 언어씩만 인식할 때 인식률이 좋다는 보고가 많음. | + | |
| + | ocrmypdf -l kor+eng \ | ||
| --deskew # 비틀림 보정 | --deskew # 비틀림 보정 | ||
| --clean # 배경 깨끗하게 | --clean # 배경 깨끗하게 | ||
| - | | + | --optimize 3 # PDF 용량 최적화. 최적화 안하려면 0 |
| < | < | ||
| < | < | ||
| - | # OCR 재실행. 이미 OCR 된 파일에 재실행 | + | # OCR 재실행. 이미 OCR 된 파일에 재실행. 최적화 등은 수행하지 않음. |
| - | ocrmypdf -l eng --redo-ocr ... | + | ocrmypdf -l eng --redo-ocr ... input.pdf output.pdf |
| # OCR 없이 PDF 이미지 최적화만 실행 | # OCR 없이 PDF 이미지 최적화만 실행 | ||
| - | ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text | + | ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text |
| + | </code> | ||
| + | |||
| + | ===== 인식률 높이기 ===== | ||
| + | * '' | ||
| + | * '' | ||
| + | * [[ocr: | ||
| + | |||
| + | |||
| + | ===== PDF 용량 최적화 ===== | ||
| + | * '' | ||
| + | * '' | ||
| + | * '' | ||
| + | * '' | ||
| + | * 아래 docker 이미지를 통한 스크립트로 하면 '' | ||
| + | <code sh> | ||
| + | # | ||
| + | # 사용법 : pdf-opt.sh 원본.pdf | ||
| + | # 결과는 원본.opt.pdf | ||
| + | # alpine 버전은 버그가 많았음. | ||
| + | FILE_NAME_ONLY=`basename " | ||
| + | OPTIMIZED_NAME=" | ||
| + | |||
| + | docker run --rm -i --user "$(id -u):$(id -g)" --workdir /data -v " | ||
| + | jbarlow83/ | ||
| + | "/ | ||
| </ | </ | ||
| + | * 현재 디렉토리에 있는 것만 처리해야함. | ||
| ====== 참조 ====== | ====== 참조 ====== | ||
| * [[https:// | * [[https:// | ||