「這個 PR 審了兩個小時,改了三行程式碼、跑了五分鐘的 CI。」這是很多開發者共同的日常。程式碼審查、依賴升級、issue 分類、測試生成——這些重複性高但又需要判斷力的工作,佔據了工程團隊大量的時間。
Mistral 今天的發布,或許會改變這個局面。
他們推出了 Mistral Medium 3.5——一個 128B 參數的稠密模型,在 SWE-Bench Verified 上拿下 77.6% 的分數,同時提供了兩個重要的新功能:Vibe 遠端 Coding Agent 和 Le Chat 的 Work 模式。這不是一次簡單的模型更新,而是朝著「開發者可以同時啟動多個 AI Agent,然後去做真正需要人類判斷的事」這個方向,邁出的一大步。
Mistral Medium 3.5:不是 MoE,是稠密模型
過去一年,大部分的 LLM 新模型都採用了 MoE(混合專家)架構——把多個小模型組合在一起,在推理時只啟動部分參數,以平衡效能和成本。Mistral 這次走了一條不同的路:Medium 3.5 是一個純粹的稠密模型,128B 參數全部參與每次推理。
為什麼這很重要?稠密模型的訓練和推理都更直接,沒有 MoE 的路由瓶頸,也沒有「專家分配不均」的問題。對於自架部署的人來說,這代表更可預測的效能和更簡單的運維。
模型的幾項關鍵規格:
- 參數量:128B 稠密模型
- 上下文長度:256K tokens
- 授權方式:modified MIT 授權(開源)
- SWE-Bench Verified:77.6%(超越 Devstral 2 和 Qwen3.5 397B A17B)
- τ³-Telecom:91.4 分(衡量 agentic 能力)
- 自架門檻:最低四張 GPU
- API 定價:輸入 $1.5 / 百萬 tokens,輸出 $7.5 / 百萬 tokens
值得注意的一個設計細節:Mistral Medium 3.5 的推理成本可以按請求調整。同一個模型可以做快速回應,也可以花更多計算資源處理複雜的 agentic 任務。同時,Mistral 也從零開始訓練了視覺編碼器,支援多種圖片尺寸和長寬比,而不是強制縮放到固定解析度。
把這個成績放在上下文來看:SWE-Bench Verified 是目前衡量模型程式碼能力的標準標竿,測試的是模型能否獨立修復真實的 GitHub issue。77.6% 這個數字,意味著模型能夠處理超過七成半的真實程式碼問題——這已經接近一個中階開發者 solo 時的表現水準。
開源授權意味著什麼
Mistral 選擇了 modified MIT 授權發布 Medium 3.5 的權重。這是一個極度寬鬆的開源授權,允許商業使用、修改、再發布,幾乎沒有限制。
對比來看:
- Llama 3:使用 Llama 授權,對月活躍用戶超過 7 億的服務有額外限制
- Qwen:使用 Apache 2.0 加附加條款
- DeepSeek:使用 Apache 2.0 加附加條款
- Mistral Medium 3.5:modified MIT,幾乎無限制
對於台灣的企業和開發者來說,這代表可以在自己的基礎設施上自由部署這個模型,不需要擔心授權合規問題。特別是處理敏感資料的金融、醫療、半導體等產業,可以完全在內網運行,資料不外流。
Vibe 遠端 Coding Agent:開發者的平行宇宙
這是 Mistral 這次發布中最有趣的部分。Vibe CLI 原本是 Mistral 的本地 Coding Agent 工具,今天的更新讓它可以將 coding session 上傳到雲端執行。
想像一個情境:早上進辦公室,發現 CI 又紅燈了。你打開終端機,用 Vibe CLI 啟動一個 Remote Agent 去排查 CI 問題。與此同時,另一個 Agent 正在幫你處理昨天收到的 dependency upgrade PR。第三個 Agent 在生成新功能的單元測試。
它們全部同時在跑,你不需要盯著螢幕等任何一個完成。
Mistral 的 Vibe Remote Agent 有幾個關鍵設計:
1. 雲端隔離沙盒
每個 coding session 都在獨立的沙盒中執行,支援大範圍的檔案編輯和套件安裝。這意味著 Agent 可以自由嘗試不同的解決方案,即使寫出有問題的程式碼,也不會影響你的開發環境。
2. 與既有工具鏈整合
Vibe 對接的系統包括:
– GitHub(程式碼和 PR)
– Linear 和 Jira(issue 管理)
– Sentry(錯誤監控)
– Slack 和 Teams(通知回報)
工程團隊不需要改變既有工作流程,Agent 發 PR 到 GitHub、在 Slack 通知結果——開發者只需要 review 結果,而不是每行程式碼都要盯著。
3. 從 Le Chat 啟動 coding 任務
Mistral 把 Vibe 的程式碼 Agent 直接整合進了 Le Chat。你可以在對話中描述一個 coding 任務(「幫我重構這個 module 的 error handling」),Agent 在雲端開始工作,完成後直接開一個 PR。不需要開啟終端機,不需要擔心 session 中斷。
4. Teleport:本地 session 一鍵上雲
如果你已經用 Vibe CLI 在本地啟動了一個 coding session,進行到一半發現它需要跑很久——你可以在離開座位前把它「teleport」到雲端。Session 的歷史、任務狀態、授權記錄全部跟著過去。
Work 模式:Le Chat 變成了多步驟執行引擎
除了程式碼 Agent,Mistral 還推出了 Le Chat 的 Work 模式(預覽版)。這是一個全新的 Agent 架構,讓 Le Chat 可以執行多步驟的複雜任務。
Work 模式解決的核心問題是:一般的 chatbot 對話只能做單一回應——你問一句,它回一句。但現實中的工作流程通常是多步驟、跨工具的。例如:「幫我回顧這週的 email,挑出需要立即回覆的三封,查一下會議邀請對象的背景資訊,然後把這些整理發到 Slack 給團隊。」
Work 模式的幾個應用案例:
跨工具工作流
一個請求可以觸發多個工具的協作:讀取 email、檢查行事曆、搜尋網頁、查閱內部文件——然後產出結構化的報告或草稿回覆。所有這些動作在同一個 session 中完成。
研究與彙整
輸入一個主題,Agent 會自動搜尋網路、內部文件、連接的工具,然後產出可以編輯的摘要或報告。完成後你可以修改再匯出——不是直接發送,而是先讓你審查。
收件匣分類與草稿回覆
根據你的郵件內容和溝通記錄,自動分類收件匣,產出草稿回覆,或在 Jira 中建立 issue。
Work 模式中,Agent 的每個動作都是可見的——你可以看到它調用了哪些工具、做了什麼決策。涉及敏感操作(發送訊息、寫入文件、修改資料)時,會要求明確授權。
對台灣開發者的實際意義
小型團隊:AI Agent 當作平行工程師
台灣有大量 3-10 人的小型開發團隊。這些團隊最痛的是「什麼都要做」——新功能開發、CI 維護、issue 管理、技術債清理——一個人很難同時兼顧。
Vibe Remote Agent 的「平行執行」特性,讓一人團隊可以同時啟動多個 Agent 處理不同任務。假設你是 3 人團隊的唯一後端工程師,你可以派一個 Agent 去修一個 bug,另一個去寫測試,第三個去升級過時的依賴庫——同時間進行。
自架部署:四張 GPU 的門檻
對於需要資料落地的企業,Mistral Medium 3.5 的自架門檻是四張 GPU。這與 Llama 3 70B 的部署需求接近,但 Medium 3.5 的參數規模更大、程式碼能力更強。
台灣的雲端服務商(如中華電信 hicloud、遠傳、GCP 台灣機房)都提供 GPU 實例,四張 A100 或 L40S 的成本,對中大型企業來說是可負擔的範圍。
潛在應用場景
金融業:自動化程式碼審查與合規檢查。Agent 可以在不離開內網的情況下,掃描程式碼中的安全漏洞和合規問題,生成報告。
半導體製造:自動化測試生成與 CI 維護。晶片設計軟體(EDA)相關的測試腳本維護,可以部分交由 Agent 處理。
軟體 SaaS 公司:客服 issue 自動分類與修復建議。Agent 連接 Sentry 和 Jira,自動分析錯誤日誌並建議修復方向。
在自家 GPU 上跑 Medium 3.5 的基本路徑
如果你有 GPU 資源(四張以上),以下是部署 Medium 3.5 的基本步驟:
硬體需求
- 最低:4 張 GPU(建議 A100 80G 或 H100)
- 記憶體:至少 256GB RAM
- 儲存:50GB 以上(模型權重約 65GB)
使用 Hugging Face 下載
Mistral 已將權重發布在 Hugging Face:
git lfs install
git clone https://huggingface.co/mistralai/Mistral-Medium-3.5
使用 vLLM 部署
vLLM 是目前最常見的推理框架,支援 continuous batching:
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model mistralai/Mistral-Medium-3.5 \
--tensor-parallel-size 4 \
--max-model-len 32768
使用 NVIDIA NIM
NVIDIA 也提供了容器化方案:
docker pull nvcr.io/nim/mistralai/mistral-medium-3.5-128b:latest
docker run --gpus all ... nvcr.io/nim/mistralai/mistral-medium-3.5-128b
API 呼叫(如果使用 Mistral 雲端)
from mistralai import Mistral
client = Mistral(api_key="YOUR_API_KEY")
response = client.chat.complete(
model="mistral-medium-3.5",
messages=[{"role": "user", "content": "解釋 mmap 在 Linux 中的運作原理"}]
)
與競品比較
Mistral Medium 3.5 在同級模型中的定位相當有意思。
| 模型 | 參數架構 | SWE-Bench Verified | 授權 | 自架門檻 |
|---|---|---|---|---|
| Mistral Medium 3.5 | 128B 稠密 | 77.6% | modified MIT | 4 GPU |
| Qwen3.5 397B A17B | MoE 397B | ~70% 區間 | Apache 2.0 | 8+ GPU |
| Llama 3 405B | 405B 稠密 | ~72% 區間 | Llama 授權 | 16+ GPU |
| Devstral 2 | 56B 稠密 | ~74% 區間 | 商業授權 | 2 GPU |
| DeepSeek-V3 | MoE 671B | ~75% 區間 | Apache 2.0 | 8+ GPU |
(標竿數字來源:Mistral AI 官方公告及公開 SWE-Bench 排行榜)
Medium 3.5 的優勢在於:用 128B 的參數規模達到了超越更大模型的標竿成績,而且授權寬鬆、自架門檻相對較低。對於不想依賴 API、又需要高效能程式碼模型的團隊來說,這可能是目前最平衡的選擇。
結語
Mistral 這一步,不只是一個新模型。
Medium 3.5 加上 Vibe Remote Agent 和 Work 模式,構成了完整的 Agent 基礎設施:模型負責判斷和執行,雲端架構負責可擴展性和隔離,工具整合負責和既有系統對接。
對開發者來說,最直接的感受是:你終於可以把重複性工作交給多個 Agent 平行處理,自己專注在真正需要判斷力的事情上。不是「AI 取代工程師」,而是「每個工程師都有好幾個 AI 實習生在背後幫忙跑腿」。
對企業來說,開源授權和低自架門檻意味著:這個能力不是只有大公司才用得起。四張 GPU 就能跑起來的 128B 模型,加上 modified MIT 授權,代表不只是雲端服務,而是真正可以落地到自家機房或台灣的雲端機房。
Mistral 把 Vibe 稱為「坐在系統工程團隊常用的工具之間」——不是取代工程師的開發環境,而是嵌入其中。這個設計哲學,或許才是這次發布最有價值的地方。能夠在不需要改變工作流程的前提下被採用,比任何標竿分數都更貼近真實世界的需求。