Promptfoo

Promptfoo

Promptfoo LLM 評測與自動化測試工具

軟體分類程式開發 / 程式設計

軟體標籤

992 993 995 958 994 33

開發廠商 Promptfoo Team

Stars

22.4k

Forks

2k

License

MIT

Version

v0.100.0

Update

2026-06-19

OS

官方網站

Git 儲存庫

讓 AI 穩定產出：從「憑感覺調優」進化到「自動化回歸測試」

矩陣式對比測試: 同時測試數十種 Prompt 組合與模型（如 GPT-4, Claude 3.5, Gemini 2.0, Ollama），並以直觀的表格呈現結果差異。
自動化斷言 (Assertions): 內建多種評分機制，支援檢查輸出是否包含特定關鍵字、是否符合 JSON 格式、語義是否與預期一致，甚至能呼叫另一個 LLM 來當「裁判」打分。
內建紅隊演練 (Red Teaming): 2026 年最新版本強化了安全性檢測，能自動模擬惡意攻擊、繞過提示（Jailbreak）與隱私洩漏測試，確保 AI 應用的合規性。

主要功能、特點

介紹: Promptfoo 是一款 CLI 工具兼函式庫，旨在為 LLM 應用引入開發流程中的「測試評估」環節。它不依賴特定的雲端平台，支援幾乎所有主流的 AI 供應商與本地模型，是打造可靠 AI 產品的基石。
特色服務:
- CI/CD 深度整合: 支援在 GitHub Actions 或 GitLab CI 中執行評測。當 Prompt 的變動導致模型輸出質量下降時，系統會自動阻斷合併，防止「負優化」。
- 高速並發評估: 針對大規模測試集優化，支援異步請求，能在幾秒鐘內完成數百組對話的批量評測。
- Web UI 視覺化報表: 除了命令列輸出，還提供精美的網頁介面，方便非開發人員（如 PM 或領域專家）檢視評測結果並給予回饋。
- 多樣化輸入源: 測試案例可以從 CSV、JSON、YAML 甚至是 Google Sheets 中自動匯入。

快速啟動指令

只需三秒，即可開啟您的第一個評測任務：

# 初始化專案設定檔
npx promptfoo@latest init

# 執行評測並啟動網頁介面查看結果
npx promptfoo@latest eval && npx promptfoo@latest view

產品說明

Promptfoo 的核心價值在於解決了 AI 開發中最困難的問題：不可預測性。在過去，我們修改了一個 Prompt 的單詞，很難察覺它是否會在邊緣案例中導致邏輯崩潰；而 Promptfoo 建立了一套「回歸測試」體系，讓每一次優化都有據可查。

它不僅是 程式設計 類別中的開發工具，更是 AI 工程化的標竿。對於需要處理嚴肅業務、對輸出準確度有高度要求的團隊，Promptfoo 提供了從模型選型、提示詞迭代到安全防禦的全生命週期支持。它將「提示詞工程」從一種隨機的嘗試，提升到了具備工程嚴謹性的生產力高度。