문서의 이전 판입니다!
ocrmypdf
sudo apt install ocrmypdf tesseract-ocr-kor tesseract-ocr-kor-vert gscan2pdf
ocrmypdf -l eng+kor --jobs 4 <원본.pdf> <OCR인식결과.pdf> # 이미지 보정 기능 등 추가 ocrmypdf -l kor+eng \ # 참고 : tesseract 가 하나의 언어씩만 인식할 때 인식률이 좋다는 보고가 많음. --deskew # 비틀림 보정 --clean # 배경 깨끗하게 ---optimize 3 # PDF 용량 최적화 <원본.pdf> <OCR인식결과.pdf> # OCR 재실행. 이미 OCR 된 파일에 재실행 ocrmypdf -l eng --redo-ocr ... <input.pdf> <output.pdf> # OCR 없이 PDF 이미지 최적화만 실행 ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text <파일.pdf>