OCRmyPDF
OCRmyPDF 智慧文件識別工具
軟體分類 程式開發 / 運維管理
軟體標籤
Network Monitoring System去馬賽克Vector graphics editor行事曆 (Calendar)
開發廠商 James R. Barlow
賦予紙本文件數位靈魂:不僅是辨識,更是全方位的 PDF 優化
- 精準的文字層嵌入: 採用業界領先的 Tesseract OCR 引擎,能精確辨識圖片中的文字並生成隱藏的文字層,使 PDF 支援關鍵字搜尋、複製與選取。
- 自動化圖像處理: 內建自動旋轉(Deskew)、去噪點(Despeckle)與去除掃描黑邊的功能,顯著提升視覺清晰度與辨識準確率。
- 標準化數位存檔: 支援生成 PDF/A 格式(長期保存標準),並在處理過程中優化檔案體積,確保文件在數十年後依然能被穩定讀取。
主要功能、特點
介紹: OCRmyPDF 是一個基於 Python 的工具,它整合了 Tesseract、Ghostscript 與 Unpaper 等多個底層庫,提供了一種高度自動化的工作流,專門處理那些由掃描器生成、無法被電腦搜尋的「死文件」。
特色服務:
- 多語言並行辨識: 支援同時加載多種語言包(如繁體中文與英文混排),滿足現代化國際辦公的需求。
- 側邊文字檔生成 (Sidecar): 除了修改 PDF 之外,還能同步生成純文字檔 (.txt),方便進行後續的大數據分析或 AI 模型訓練。
- 向量化圖層保留: 如果原文件已包含部分文字層,OCRmyPDF 能聰明地僅針對圖片部分進行 OCR,而保留原有的文字路徑,不損害原始品質。
- 高度可擴展的 API: 對於開發者而言,它提供了豐富的命令行參數與 Python 介面,能輕鬆整合進伺服器端的自動化文件處理鏈中。
常用指令範例 (Docker)
使用 Docker 處理本地 PDF(最簡單且不污染環境的方式):
# 基礎 OCR 處理(支援中英文)
docker run --rm -v "$(pwd):/home/docker" jbarlow83/ocrmypdf
--language chi_tra+eng input.pdf output.pdf
# 進階優化:自動校正傾斜、去噪點並生成 PDF/A
docker run --rm -v "$(pwd):/home/docker" jbarlow83/ocrmypdf
--deskew --clean --output-type pdfa input.pdf output.pdf
產品說明
OCRmyPDF 是數位資產管理中的「基石類」工具。它解決了掃描文件無法被索引的核心痛點,讓大量的歷史存檔轉變為可被現代搜尋引擎檢索的活躍資產。與市面上昂貴且笨重的圖形化 OCR 軟體相比,OCRmyPDF 以其極高的處理效率與卓越的命令行自動化能力脫穎而出。它不僅能確保文字識別的準確性,更透過專業的圖像優化技術,讓處理後的檔案在體積與清晰度之間達到完美平衡。對於圖書館、律師事務所、學術研究機構或是致力於個人知識管理的開發者來說,OCRmyPDF 提供了一個穩定、免費且符合工業標準的 PDF 數位化解決方案。

