Name: OCRmyPDF
Availability: InStock
Rating: 5 (32920 reviews)
Author: James R. Barlow

賦予紙本文件數位靈魂：不僅是辨識，更是全方位的 PDF 優化

精準的文字層嵌入: 採用業界領先的 Tesseract OCR 引擎，能精確辨識圖片中的文字並生成隱藏的文字層，使 PDF 支援關鍵字搜尋、複製與選取。
自動化圖像處理: 內建自動旋轉（Deskew）、去噪點（Despeckle）與去除掃描黑邊的功能，顯著提升視覺清晰度與辨識準確率。
標準化數位存檔: 支援生成 PDF/A 格式（長期保存標準），並在處理過程中優化檔案體積，確保文件在數十年後依然能被穩定讀取。

主要功能、特點

介紹: OCRmyPDF 是一個基於 Python 的工具，它整合了 Tesseract、Ghostscript 與 Unpaper 等多個底層庫，提供了一種高度自動化的工作流，專門處理那些由掃描器生成、無法被電腦搜尋的「死文件」。
特色服務:
- 多語言並行辨識: 支援同時加載多種語言包（如繁體中文與英文混排），滿足現代化國際辦公的需求。
- 側邊文字檔生成 (Sidecar): 除了修改 PDF 之外，還能同步生成純文字檔 (.txt)，方便進行後續的大數據分析或 AI 模型訓練。
- 向量化圖層保留: 如果原文件已包含部分文字層，OCRmyPDF 能聰明地僅針對圖片部分進行 OCR，而保留原有的文字路徑，不損害原始品質。
- 高度可擴展的 API: 對於開發者而言，它提供了豐富的命令行參數與 Python 介面，能輕鬆整合進伺服器端的自動化文件處理鏈中。

常用指令範例 (Docker)

使用 Docker 處理本地 PDF（最簡單且不污染環境的方式）：

# 基礎 OCR 處理（支援中英文）
docker run --rm -v "$(pwd):/home/docker" jbarlow83/ocrmypdf 
  --language chi_tra+eng input.pdf output.pdf

# 進階優化：自動校正傾斜、去噪點並生成 PDF/A
docker run --rm -v "$(pwd):/home/docker" jbarlow83/ocrmypdf 
  --deskew --clean --output-type pdfa input.pdf output.pdf

產品說明

OCRmyPDF 是數位資產管理中的「基石類」工具。它解決了掃描文件無法被索引的核心痛點，讓大量的歷史存檔轉變為可被現代搜尋引擎檢索的活躍資產。與市面上昂貴且笨重的圖形化 OCR 軟體相比，OCRmyPDF 以其極高的處理效率與卓越的命令行自動化能力脫穎而出。它不僅能確保文字識別的準確性，更透過專業的圖像優化技術，讓處理後的檔案在體積與清晰度之間達到完美平衡。對於圖書館、律師事務所、學術研究機構或是致力於個人知識管理的開發者來說，OCRmyPDF 提供了一個穩定、免費且符合工業標準的 PDF 數位化解決方案。