문서의 이전 판입니다!

ocrmypdf

https://ocrmypdf.readthedocs.io/en/latest/
https://github.com/ocrmypdf/OCRmyPDF
Tesseract OCR를 이용해 PDF OCR / PDF 최적화 등을 수행해준다.
알PDF : Windows 용 강력한 OCR 제공

ocrmypdf

설치

sudo apt install ocrmypdf  tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf

docker 기반으로 사용하는게 편할지도
https://hub.docker.com/r/jbarlow83/ocrmypdf-alpine
https://hub.docker.com/r/jbarlow83/ocrmypdf-ubuntu

사용

Tesseract OCR 환경변수 설정 등도 확인

ocrmypdf -l eng+kor --jobs 4 <원본.pdf> <OCR인식결과.pdf>
 
# 이미지 보정 기능 등 추가
# 참고 : tesseract 가 하나의 언어씩만 인식할 때 인식률이 좋다는 보고가 많음.
ocrmypdf -l kor+eng \
    --deskew # 비틀림 보정
    --clean # 배경 깨끗하게 
    ---optimize 3  # PDF 용량 최적화 
    <원본.pdf>
    <OCR인식결과.pdf>
 
# OCR 재실행. 이미 OCR 된 파일에 재실행
ocrmypdf -l eng --redo-ocr ... input.pdf output.pdf
# OCR 없이 PDF 이미지 최적화만 실행
ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text input.pdf output.pdf

참조

PDF 문서 OCR 하는 법 | Free PDF OCR (ocrmypdf)

권남

사이드바

목차

ocrmypdf

설치

사용

참조

권남

사용자 도구

사이트 도구

사이드바

목차

ocrmypdf

설치

사용

참조

문서 도구