ocrmypdf
-
-
-
알PDF : Windows 용 강력한 OCR 제공
-
설치
homebrew
brew install ocrmypdf tesseract tesseract-lang
Ubuntu
sudo apt install ocrmypdf tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf
docker
사용
ocrmypdf -l eng+kor --jobs 4 <원본.pdf> <OCR인식결과.pdf>
# 이미지 보정 기능 등 추가
ocrmypdf -l kor+eng \
--deskew # 비틀림 보정
--clean # 배경 깨끗하게
--optimize 3 # PDF 용량 최적화. 최적화 안하려면 0
<원본.pdf>
<OCR인식결과.pdf>
# OCR 재실행. 이미 OCR 된 파일에 재실행. 최적화 등은 수행하지 않음.
ocrmypdf -l eng --redo-ocr ... input.pdf output.pdf
# OCR 없이 PDF 이미지 최적화만 실행
ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text input.pdf output.pdf
인식률 높이기
PDF 용량 최적화
#!/usr/bin/env bash
# 사용법 : pdf-opt.sh 원본.pdf
# 결과는 원본.opt.pdf
# alpine 버전은 버그가 많았음.
FILE_NAME_ONLY=`basename "$1" .pdf`
OPTIMIZED_NAME="${FILE_NAME_ONLY}.opt.pdf"
docker run --rm -i --user "$(id -u):$(id -g)" --workdir /data -v "$PWD:/data" \
jbarlow83/ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text \
"/data/$1" "/data/$OPTIMIZED_NAME"
참조