產品說明

LocalAI 是一個功能強大的開源專案，旨在成為 OpenAI API 的「直接替換品 (Drop-in replacement)」。這意味著，如果您現有的應用程式是針對 OpenAI 開發的（例如使用了 LangChain 或 AutoGPT），您只需將 API URL 指向您的 LocalAI 伺服器，即可在不修改程式碼的情況下，將雲端 AI 替換為本地運行的模型。

它不需要昂貴的企業級 GPU 也能運作，LocalAI 對消費級硬體（Consumer-grade hardware）進行了極佳的優化，支援 CPU 推理（基於 llama.cpp），也支援 NVIDIA GPU 加速。除了文字生成的 LLM 外，它還是一個多模態（Multimodal）平台，支援圖片生成（Stable Diffusion）、語音轉文字（Whisper）以及文字轉語音（TTS）。

對於企業與開發者而言，LocalAI 是實現「數據主權」與「隱私合規」的關鍵工具，確保敏感資料永遠不會離開內部網路。

核心特色：

OpenAI API 相容：提供與 OpenAI 完全一致的 REST API 格式，無痛遷移現有 AI 應用。
廣泛模型支援：直接支援 GGUF、GGML、GPTQ、EXL2 等主流模型格式，可運行 Llama 3, Mistral, Qwen 等開源模型。
多模態能力：不僅是聊天機器人，還內建了圖像生成、音訊轉錄與語音合成功能。
低硬體門檻：優秀的 CPU 推理優化，讓一般筆電或沒有顯卡的伺服器也能跑 AI 模型。
模型庫 (Model Gallery)：內建簡易的模型下載介面，可一鍵拉取 Hugging Face 上的熱門模型。

常用指令與快捷鍵

LocalAI 的核心是一個 API 伺服器，通常透過 Docker 進行部署，並透過 HTTP 請求進行互動。

Docker 部署指令

這是最快速啟動 LocalAI 的方式（CPU 模式）：

# 啟動 LocalAI 容器
docker run -p 8080:8080 --name local-ai -ti localai/localai:latest-aio-cpu

# 若您擁有 NVIDIA GPU，可使用 CUDA 版本以獲得更高效能
docker run -p 8080:8080 --gpus all --name local-ai -ti localai/localai:latest-aio-gpu-nvidia-cuda-12

(註：aio 代表 All-In-One 映像檔，已預載部分模型與設定)

API 呼叫範例

啟動後，您可以使用 curl 來測試 API，就像呼叫 OpenAI 一樣：

# 測試文字生成 (Chat Completion)
curl http://localhost:8080/v1/chat/completions 
  -H "Content-Type: application/json" 
  -d '{
    "model": "gpt-3.5-turbo",
    "messages": [{"role": "user", "content": "你好，請自我介紹一下。"}]
  }'

# 測試圖片生成 (Image Generation)
curl http://localhost:8080/v1/images/generations 
  -H "Content-Type: application/json" 
  -d '{
    "prompt": "A futuristic city with flying cars, cyberpunk style",
    "size": "512x512"
  }'

操作介面

雖然 LocalAI 主要作為 API 後端運作，但它也提供了一個簡單的 Web 介面供使用者測試模型與管理設定。

Web 介面功能：

Chat 介面：一個類似 ChatGPT 的對話視窗，讓您可以直接與載入的模型聊天，測試回應品質。
Model Gallery：圖形化的模型商店，您可以瀏覽並安裝來自社群的各種模型（如 Llama-3-8B, Stable Diffusion XL 等）。
系統狀態：監控目前的記憶體使用量與模型載入狀態。