문서의 이전 판입니다!

ocrmypdf

https://ocrmypdf.readthedocs.io/en/latest/
https://github.com/ocrmypdf/OCRmyPDF
Tesseract OCR를 이용해 PDF OCR / PDF 최적화 등을 수행해준다.
알PDF : Windows 용 강력한 OCR 제공

ocrmypdf

설치

homebrew

linuxbrew 로 가장 최신버전 설치 가능

brew install ocrmypdf tesseract tesseract-lang

Ubuntu

sudo apt install ocrmypdf  tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf

docker

docker 기반으로 사용하는게 편할지도
https://hub.docker.com/r/jbarlow83/ocrmypdf-alpine # 더 최신 tesseract
https://hub.docker.com/r/jbarlow83/ocrmypdf-ubuntu

사용

Tesseract OCR 환경변수 설정 등도 확인

ocrmypdf -l eng+kor --jobs 4 <원본.pdf> <OCR인식결과.pdf>
 
# 이미지 보정 기능 등 추가
 
ocrmypdf -l kor+eng \
    --deskew # 비틀림 보정
    --clean # 배경 깨끗하게 
    --optimize 3  # PDF 용량 최적화. 최적화 안하려면 0
    <원본.pdf>
    <OCR인식결과.pdf>
 
# OCR 재실행. 이미 OCR 된 파일에 재실행. 최적화 등은 수행하지 않음.
ocrmypdf -l eng --redo-ocr ... input.pdf output.pdf
 
# OCR 없이 PDF 이미지 최적화만 실행
ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text input.pdf output.pdf

인식률 높이기

--deskew : 비틀어진 이미지를 똑바로 세워주고 그로인해 인식률 높아짐. 무조건 해주는게 좋다.
--clean : unpaper 를 이용해 책 스캔된것을 깨끗하게 보정. 그러나 OCR 인식에서만 해당 이미지를 사용하고, 실제 출력에서는 원본 대로.
Tesseract OCR가 여러 언어를 동시에 인식하면 인식률이 떨어진다는 얘기가 있으나, 그렇다고 ocrmypdf 로 언어를 따로따로 두번 인식시키면 앞서 인식한 언어 데이터는 사라지게 되므로 한 번에 모든 언어를 처리할 것.

PDF 용량 최적화

--optimize 숫자
0 : 최적화 안함
1 : 원본 손상없이 최적화
2, 3 : 원본 손상하면서 최적화 최대한

참조

PDF 문서 OCR 하는 법 | Free PDF OCR (ocrmypdf)

권남

사이드바

목차

ocrmypdf

설치

homebrew

Ubuntu

docker

사용

인식률 높이기

PDF 용량 최적화

참조

권남

사용자 도구

사이트 도구

사이드바

목차

ocrmypdf

설치

homebrew

Ubuntu

docker

사용

인식률 높이기

PDF 용량 최적화

참조

문서 도구