사용자 도구

사이트 도구


pdf:ocrmypdf

문서의 이전 판입니다!


ocrmypdf

  • ocrmypdf

설치

sudo apt install ocrmypdf  tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf

사용

ocrmypdf -l eng+kor --jobs 4 <원본.pdf> <OCR인식결과.pdf>
 
# 이미지 보정 기능 등 추가
 
ocrmypdf -l kor+eng \
    --deskew # 비틀림 보정
    --clean # 배경 깨끗하게 
    ---optimize 3  # PDF 용량 최적화. 최적화 안하려면 0
    <원본.pdf>
    <OCR인식결과.pdf>
 
# OCR 재실행. 이미 OCR 된 파일에 재실행. 최적화 등은 수행하지 않음.
ocrmypdf -l eng --redo-ocr ... input.pdf output.pdf
 
# OCR 없이 PDF 이미지 최적화만 실행
ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text input.pdf output.pdf

주의

  • Tesseract OCR가 여러 언어를 동시에 인식하면 인식률이 떨어진다는 얘기가 있으나, 그렇다고 ocrmypdf 로 언어를 따로따로 두번 인식시키면 앞서 인식한 언어 데이터는 사라지게 되므로 한 번에 모든 언어를 처리할 것.

참조

pdf/ocrmypdf.1698040711.txt.gz · 마지막으로 수정됨: 2023/10/23 14:58 저자 kwon37xi