LocalAI
LocalAI 本地 AI 推理平台
產品說明
LocalAI 是一個功能強大的開源專案,旨在成為 OpenAI API 的「直接替換品 (Drop-in replacement)」。這意味著,如果您現有的應用程式是針對 OpenAI 開發的(例如使用了 LangChain 或 AutoGPT),您只需將 API URL 指向您的 LocalAI 伺服器,即可在不修改程式碼的情況下,將雲端 AI 替換為本地運行的模型。
它不需要昂貴的企業級 GPU 也能運作,LocalAI 對消費級硬體(Consumer-grade hardware)進行了極佳的優化,支援 CPU 推理(基於 llama.cpp),也支援 NVIDIA GPU 加速。除了文字生成的 LLM 外,它還是一個多模態(Multimodal)平台,支援圖片生成(Stable Diffusion)、語音轉文字(Whisper)以及文字轉語音(TTS)。
對於企業與開發者而言,LocalAI 是實現「數據主權」與「隱私合規」的關鍵工具,確保敏感資料永遠不會離開內部網路。
核心特色:
- OpenAI API 相容:提供與 OpenAI 完全一致的 REST API 格式,無痛遷移現有 AI 應用。
- 廣泛模型支援:直接支援 GGUF、GGML、GPTQ、EXL2 等主流模型格式,可運行 Llama 3, Mistral, Qwen 等開源模型。
- 多模態能力:不僅是聊天機器人,還內建了圖像生成、音訊轉錄與語音合成功能。
- 低硬體門檻:優秀的 CPU 推理優化,讓一般筆電或沒有顯卡的伺服器也能跑 AI 模型。
- 模型庫 (Model Gallery):內建簡易的模型下載介面,可一鍵拉取 Hugging Face 上的熱門模型。
常用指令與快捷鍵
LocalAI 的核心是一個 API 伺服器,通常透過 Docker 進行部署,並透過 HTTP 請求進行互動。
Docker 部署指令
這是最快速啟動 LocalAI 的方式(CPU 模式):
# 啟動 LocalAI 容器
docker run -p 8080:8080 --name local-ai -ti localai/localai:latest-aio-cpu
# 若您擁有 NVIDIA GPU,可使用 CUDA 版本以獲得更高效能
docker run -p 8080:8080 --gpus all --name local-ai -ti localai/localai:latest-aio-gpu-nvidia-cuda-12
(註:aio 代表 All-In-One 映像檔,已預載部分模型與設定)
API 呼叫範例
啟動後,您可以使用 curl 來測試 API,就像呼叫 OpenAI 一樣:
# 測試文字生成 (Chat Completion)
curl http://localhost:8080/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "gpt-3.5-turbo",
"messages": [{"role": "user", "content": "你好,請自我介紹一下。"}]
}'
# 測試圖片生成 (Image Generation)
curl http://localhost:8080/v1/images/generations
-H "Content-Type: application/json"
-d '{
"prompt": "A futuristic city with flying cars, cyberpunk style",
"size": "512x512"
}'
操作介面
雖然 LocalAI 主要作為 API 後端運作,但它也提供了一個簡單的 Web 介面供使用者測試模型與管理設定。
Web 介面功能:
- Chat 介面:一個類似 ChatGPT 的對話視窗,讓您可以直接與載入的模型聊天,測試回應品質。
- Model Gallery:圖形化的模型商店,您可以瀏覽並安裝來自社群的各種模型(如 Llama-3-8B, Stable Diffusion XL 等)。
- 系統狀態:監控目前的記憶體使用量與模型載入狀態。




![]()

