사용자 도구

사이트 도구


pdf:ocrmypdf

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

양쪽 이전 판 이전 판
다음 판
이전 판
pdf:ocrmypdf [2023/12/16 00:25]
kwon37xi
pdf:ocrmypdf [2024/01/26 16:15] (현재)
kwon37xi [PDF 용량 최적화]
줄 24: 줄 24:
 === docker === === docker ===
   * docker 기반으로 사용하는게 편할지도   * docker 기반으로 사용하는게 편할지도
-  * https://hub.docker.com/r/jbarlow83/ocrmypdf-alpine # 더 최신 tesseract +  * https://hub.docker.com/r/jbarlow83/ocrmypdf-alpine # 더 최신 tesseract. 그러나 버그가 좀 있는듯. 
-  * https://hub.docker.com/r/jbarlow83/ocrmypdf-ubuntu+  * https://hub.docker.com/r/jbarlow83/ocrmypdf-ubuntu # 그냥 ocrmypdf 도 우분투버전임.
  
 ===== 사용 ===== ===== 사용 =====
줄 59: 줄 59:
   * ''1'' : 원본 손상없이 최적화   * ''1'' : 원본 손상없이 최적화
   * ''2'', ''3'' : 원본 손상하면서 최적화 최대한   * ''2'', ''3'' : 원본 손상하면서 최적화 최대한
 +  * 아래 docker 이미지를 통한 스크립트로 하면 ''jbig2'' 라이브러리 설치 없이 처리 가능
 +<code sh>
 +#!/usr/bin/env bash
 +# 사용법 : pdf-opt.sh 원본.pdf
 +# 결과는 원본.opt.pdf
 +# alpine 버전은 버그가 많았음.
 +FILE_NAME_ONLY=`basename "$1" .pdf`
 +OPTIMIZED_NAME="${FILE_NAME_ONLY}.opt.pdf"
 +
 +docker run --rm -i --user "$(id -u):$(id -g)" --workdir /data -v "$PWD:/data" \
 +  jbarlow83/ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text \
 +  "/data/$1" "/data/$OPTIMIZED_NAME"
 +</code>
 +    * 현재 디렉토리에 있는 것만 처리해야함.
  
 ====== 참조 ====== ====== 참조 ======
   * [[https://superroot.tistory.com/263|PDF 문서 OCR 하는 법 | Free PDF OCR (ocrmypdf)]]   * [[https://superroot.tistory.com/263|PDF 문서 OCR 하는 법 | Free PDF OCR (ocrmypdf)]]
  
pdf/ocrmypdf.1702653924.txt.gz · 마지막으로 수정됨: 2023/12/16 00:25 저자 kwon37xi