Skip to content

Promptfoo

Promptfoo LLM 評測與自動化測試工具

軟體分類 程式開發 / 程式設計
開發廠商 Promptfoo Team
Stars
0
Forks
0
License
MIT
Version
v0.100.0
Update
OS

讓 AI 穩定產出:從「憑感覺調優」進化到「自動化回歸測試」

  • 矩陣式對比測試: 同時測試數十種 Prompt 組合與模型(如 GPT-4, Claude 3.5, Gemini 2.0, Ollama),並以直觀的表格呈現結果差異。
  • 自動化斷言 (Assertions): 內建多種評分機制,支援檢查輸出是否包含特定關鍵字、是否符合 JSON 格式、語義是否與預期一致,甚至能呼叫另一個 LLM 來當「裁判」打分。
  • 內建紅隊演練 (Red Teaming): 2026 年最新版本強化了安全性檢測,能自動模擬惡意攻擊、繞過提示(Jailbreak)與隱私洩漏測試,確保 AI 應用的合規性。

主要功能、特點

  • 介紹: Promptfoo 是一款 CLI 工具兼函式庫,旨在為 LLM 應用引入開發流程中的「測試評估」環節。它不依賴特定的雲端平台,支援幾乎所有主流的 AI 供應商與本地模型,是打造可靠 AI 產品的基石。

  • 特色服務:

    • CI/CD 深度整合: 支援在 GitHub Actions 或 GitLab CI 中執行評測。當 Prompt 的變動導致模型輸出質量下降時,系統會自動阻斷合併,防止「負優化」。
    • 高速並發評估: 針對大規模測試集優化,支援異步請求,能在幾秒鐘內完成數百組對話的批量評測。
    • Web UI 視覺化報表: 除了命令列輸出,還提供精美的網頁介面,方便非開發人員(如 PM 或領域專家)檢視評測結果並給予回饋。
    • 多樣化輸入源: 測試案例可以從 CSV、JSON、YAML 甚至是 Google Sheets 中自動匯入。

快速啟動指令

只需三秒,即可開啟您的第一個評測任務:

# 初始化專案設定檔
npx promptfoo@latest init

# 執行評測並啟動網頁介面查看結果
npx promptfoo@latest eval && npx promptfoo@latest view

產品說明

Promptfoo 的核心價值在於解決了 AI 開發中最困難的問題:不可預測性。在過去,我們修改了一個 Prompt 的單詞,很難察覺它是否會在邊緣案例中導致邏輯崩潰;而 Promptfoo 建立了一套「回歸測試」體系,讓每一次優化都有據可查。

它不僅是 程式設計 類別中的開發工具,更是 AI 工程化的標竿。對於需要處理嚴肅業務、對輸出準確度有高度要求的團隊,Promptfoo 提供了從模型選型、提示詞迭代到安全防禦的全生命週期支持。它將「提示詞工程」從一種隨機的嘗試,提升到了具備工程嚴謹性的生產力高度。