pdf:ocrmypdf

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

--- pdf:ocrmypdf [2023/12/16 00:25]
kwon37xi
+++ pdf:ocrmypdf [2024/01/26 16:15] (현재)
kwon37xi [PDF 용량 최적화]
@@ 줄 24: / 줄 24: @@
 === docker ===
   * docker 기반으로 사용하는게 편할지도
-  * https://hub.docker.com/r/jbarlow83/ocrmypdf-alpine # 더 최신 tesseract
+  * https://hub.docker.com/r/jbarlow83/ocrmypdf-alpine # 더 최신 tesseract. 그러나 버그가 좀 있는듯.
-  * https://hub.docker.com/r/jbarlow83/ocrmypdf-ubuntu
+  * https://hub.docker.com/r/jbarlow83/ocrmypdf-ubuntu # 그냥 ocrmypdf 도 우분투버전임.
 ===== 사용 =====
@@ 줄 59: / 줄 59: @@
   * ''1'' : 원본 손상없이 최적화
   * ''2'', ''3'' : 원본 손상하면서 최적화 최대한
+  * 아래 docker 이미지를 통한 스크립트로 하면 ''jbig2'' 라이브러리 설치 없이 처리 가능
+<code sh>
+#!/usr/bin/env bash
+# 사용법 : pdf-opt.sh 원본.pdf
+# 결과는 원본.opt.pdf
+# alpine 버전은 버그가 많았음.
+FILE_NAME_ONLY=`basename "$1" .pdf`
+OPTIMIZED_NAME="${FILE_NAME_ONLY}.opt.pdf"
+docker run --rm -i --user "$(id -u):$(id -g)" --workdir /data -v "$PWD:/data" \
+  jbarlow83/ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text \
+  "/data/$1" "/data/$OPTIMIZED_NAME"
+</code>
+    * 현재 디렉토리에 있는 것만 처리해야함.
 ====== 참조 ======
   * [[https://superroot.tistory.com/263|PDF 문서 OCR 하는 법 | Free PDF OCR (ocrmypdf)]]

pdf/ocrmypdf.1702653924.txt.gz · 마지막으로 수정됨: 2023/12/16 00:25 저자 kwon37xi