Mistral Medium 3.5 開源釋出：128B 模型 SWE-Bench 達 77.6%，四張 GPU 就能自架

「這個 PR 審了兩個小時，改了三行程式碼、跑了五分鐘的 CI。」這是很多開發者共同的日常。程式碼審查、依賴升級、issue 分類、測試生成——這些重複性高但又需要判斷力的工作，佔據了工程團隊大量的時間。

Mistral 今天的發布，或許會改變這個局面。

他們推出了 Mistral Medium 3.5——一個 128B 參數的稠密模型，在 SWE-Bench Verified 上拿下 77.6% 的分數，同時提供了兩個重要的新功能：Vibe 遠端 Coding Agent 和 Le Chat 的 Work 模式。這不是一次簡單的模型更新，而是朝著「開發者可以同時啟動多個 AI Agent，然後去做真正需要人類判斷的事」這個方向，邁出的一大步。

Mistral Medium 3.5：不是 MoE，是稠密模型

過去一年，大部分的 LLM 新模型都採用了 MoE（混合專家）架構——把多個小模型組合在一起，在推理時只啟動部分參數，以平衡效能和成本。Mistral 這次走了一條不同的路：Medium 3.5 是一個純粹的稠密模型，128B 參數全部參與每次推理。

為什麼這很重要？稠密模型的訓練和推理都更直接，沒有 MoE 的路由瓶頸，也沒有「專家分配不均」的問題。對於自架部署的人來說，這代表更可預測的效能和更簡單的運維。

模型的幾項關鍵規格：

參數量：128B 稠密模型
上下文長度：256K tokens
授權方式：modified MIT 授權（開源）
SWE-Bench Verified：77.6%（超越 Devstral 2 和 Qwen3.5 397B A17B）
τ³-Telecom：91.4 分（衡量 agentic 能力）
自架門檻：最低四張 GPU
API 定價：輸入 $1.5 / 百萬 tokens，輸出 $7.5 / 百萬 tokens

值得注意的一個設計細節：Mistral Medium 3.5 的推理成本可以按請求調整。同一個模型可以做快速回應，也可以花更多計算資源處理複雜的 agentic 任務。同時，Mistral 也從零開始訓練了視覺編碼器，支援多種圖片尺寸和長寬比，而不是強制縮放到固定解析度。

把這個成績放在上下文來看：SWE-Bench Verified 是目前衡量模型程式碼能力的標準標竿，測試的是模型能否獨立修復真實的 GitHub issue。77.6% 這個數字，意味著模型能夠處理超過七成半的真實程式碼問題——這已經接近一個中階開發者 solo 時的表現水準。

開源授權意味著什麼

Mistral 選擇了 modified MIT 授權發布 Medium 3.5 的權重。這是一個極度寬鬆的開源授權，允許商業使用、修改、再發布，幾乎沒有限制。

對比來看：

Llama 3：使用 Llama 授權，對月活躍用戶超過 7 億的服務有額外限制
Qwen：使用 Apache 2.0 加附加條款
DeepSeek：使用 Apache 2.0 加附加條款
Mistral Medium 3.5：modified MIT，幾乎無限制

對於台灣的企業和開發者來說，這代表可以在自己的基礎設施上自由部署這個模型，不需要擔心授權合規問題。特別是處理敏感資料的金融、醫療、半導體等產業，可以完全在內網運行，資料不外流。

Vibe 遠端 Coding Agent：開發者的平行宇宙

這是 Mistral 這次發布中最有趣的部分。Vibe CLI 原本是 Mistral 的本地 Coding Agent 工具，今天的更新讓它可以將 coding session 上傳到雲端執行。

想像一個情境：早上進辦公室，發現 CI 又紅燈了。你打開終端機，用 Vibe CLI 啟動一個 Remote Agent 去排查 CI 問題。與此同時，另一個 Agent 正在幫你處理昨天收到的 dependency upgrade PR。第三個 Agent 在生成新功能的單元測試。

它們全部同時在跑，你不需要盯著螢幕等任何一個完成。

Mistral 的 Vibe Remote Agent 有幾個關鍵設計：

1. 雲端隔離沙盒
每個 coding session 都在獨立的沙盒中執行，支援大範圍的檔案編輯和套件安裝。這意味著 Agent 可以自由嘗試不同的解決方案，即使寫出有問題的程式碼，也不會影響你的開發環境。

2. 與既有工具鏈整合
Vibe 對接的系統包括：
– GitHub（程式碼和 PR）
– Linear 和 Jira（issue 管理）
– Sentry（錯誤監控）
– Slack 和 Teams（通知回報）

工程團隊不需要改變既有工作流程，Agent 發 PR 到 GitHub、在 Slack 通知結果——開發者只需要 review 結果，而不是每行程式碼都要盯著。

3. 從 Le Chat 啟動 coding 任務
Mistral 把 Vibe 的程式碼 Agent 直接整合進了 Le Chat。你可以在對話中描述一個 coding 任務（「幫我重構這個 module 的 error handling」），Agent 在雲端開始工作，完成後直接開一個 PR。不需要開啟終端機，不需要擔心 session 中斷。

4. Teleport：本地 session 一鍵上雲
如果你已經用 Vibe CLI 在本地啟動了一個 coding session，進行到一半發現它需要跑很久——你可以在離開座位前把它「teleport」到雲端。Session 的歷史、任務狀態、授權記錄全部跟著過去。

Work 模式：Le Chat 變成了多步驟執行引擎

除了程式碼 Agent，Mistral 還推出了 Le Chat 的 Work 模式（預覽版）。這是一個全新的 Agent 架構，讓 Le Chat 可以執行多步驟的複雜任務。

Work 模式解決的核心問題是：一般的 chatbot 對話只能做單一回應——你問一句，它回一句。但現實中的工作流程通常是多步驟、跨工具的。例如：「幫我回顧這週的 email，挑出需要立即回覆的三封，查一下會議邀請對象的背景資訊，然後把這些整理發到 Slack 給團隊。」

Work 模式的幾個應用案例：

跨工具工作流
一個請求可以觸發多個工具的協作：讀取 email、檢查行事曆、搜尋網頁、查閱內部文件——然後產出結構化的報告或草稿回覆。所有這些動作在同一個 session 中完成。

研究與彙整
輸入一個主題，Agent 會自動搜尋網路、內部文件、連接的工具，然後產出可以編輯的摘要或報告。完成後你可以修改再匯出——不是直接發送，而是先讓你審查。

收件匣分類與草稿回覆
根據你的郵件內容和溝通記錄，自動分類收件匣，產出草稿回覆，或在 Jira 中建立 issue。

Work 模式中，Agent 的每個動作都是可見的——你可以看到它調用了哪些工具、做了什麼決策。涉及敏感操作（發送訊息、寫入文件、修改資料）時，會要求明確授權。

對台灣開發者的實際意義

小型團隊：AI Agent 當作平行工程師

台灣有大量 3-10 人的小型開發團隊。這些團隊最痛的是「什麼都要做」——新功能開發、CI 維護、issue 管理、技術債清理——一個人很難同時兼顧。

Vibe Remote Agent 的「平行執行」特性，讓一人團隊可以同時啟動多個 Agent 處理不同任務。假設你是 3 人團隊的唯一後端工程師，你可以派一個 Agent 去修一個 bug，另一個去寫測試，第三個去升級過時的依賴庫——同時間進行。

自架部署：四張 GPU 的門檻

對於需要資料落地的企業，Mistral Medium 3.5 的自架門檻是四張 GPU。這與 Llama 3 70B 的部署需求接近，但 Medium 3.5 的參數規模更大、程式碼能力更強。

台灣的雲端服務商（如中華電信 hicloud、遠傳、GCP 台灣機房）都提供 GPU 實例，四張 A100 或 L40S 的成本，對中大型企業來說是可負擔的範圍。

潛在應用場景

金融業：自動化程式碼審查與合規檢查。Agent 可以在不離開內網的情況下，掃描程式碼中的安全漏洞和合規問題，生成報告。

半導體製造：自動化測試生成與 CI 維護。晶片設計軟體（EDA）相關的測試腳本維護，可以部分交由 Agent 處理。

軟體 SaaS 公司：客服 issue 自動分類與修復建議。Agent 連接 Sentry 和 Jira，自動分析錯誤日誌並建議修復方向。

在自家 GPU 上跑 Medium 3.5 的基本路徑

如果你有 GPU 資源（四張以上），以下是部署 Medium 3.5 的基本步驟：

硬體需求

最低：4 張 GPU（建議 A100 80G 或 H100）
記憶體：至少 256GB RAM
儲存：50GB 以上（模型權重約 65GB）

使用 Hugging Face 下載

Mistral 已將權重發布在 Hugging Face：

git lfs install
git clone https://huggingface.co/mistralai/Mistral-Medium-3.5

使用 vLLM 部署

vLLM 是目前最常見的推理框架，支援 continuous batching：

pip install vllm
python -m vllm.entrypoints.openai.api_server \
    --model mistralai/Mistral-Medium-3.5 \
    --tensor-parallel-size 4 \
    --max-model-len 32768

使用 NVIDIA NIM

NVIDIA 也提供了容器化方案：

docker pull nvcr.io/nim/mistralai/mistral-medium-3.5-128b:latest
docker run --gpus all ... nvcr.io/nim/mistralai/mistral-medium-3.5-128b

API 呼叫（如果使用 Mistral 雲端）

from mistralai import Mistral
client = Mistral(api_key="YOUR_API_KEY")
response = client.chat.complete(
    model="mistral-medium-3.5",
    messages=[{"role": "user", "content": "解釋 mmap 在 Linux 中的運作原理"}]
)

與競品比較

Mistral Medium 3.5 在同級模型中的定位相當有意思。

模型	參數架構	SWE-Bench Verified	授權	自架門檻
Mistral Medium 3.5	128B 稠密	77.6%	modified MIT	4 GPU
Qwen3.5 397B A17B	MoE 397B	~70% 區間	Apache 2.0	8+ GPU
Llama 3 405B	405B 稠密	~72% 區間	Llama 授權	16+ GPU
Devstral 2	56B 稠密	~74% 區間	商業授權	2 GPU
DeepSeek-V3	MoE 671B	~75% 區間	Apache 2.0	8+ GPU

（標竿數字來源：Mistral AI 官方公告及公開 SWE-Bench 排行榜）

Medium 3.5 的優勢在於：用 128B 的參數規模達到了超越更大模型的標竿成績，而且授權寬鬆、自架門檻相對較低。對於不想依賴 API、又需要高效能程式碼模型的團隊來說，這可能是目前最平衡的選擇。

結語

Mistral 這一步，不只是一個新模型。

Medium 3.5 加上 Vibe Remote Agent 和 Work 模式，構成了完整的 Agent 基礎設施：模型負責判斷和執行，雲端架構負責可擴展性和隔離，工具整合負責和既有系統對接。

對開發者來說，最直接的感受是：你終於可以把重複性工作交給多個 Agent 平行處理，自己專注在真正需要判斷力的事情上。不是「AI 取代工程師」，而是「每個工程師都有好幾個 AI 實習生在背後幫忙跑腿」。

對企業來說，開源授權和低自架門檻意味著：這個能力不是只有大公司才用得起。四張 GPU 就能跑起來的 128B 模型，加上 modified MIT 授權，代表不只是雲端服務，而是真正可以落地到自家機房或台灣的雲端機房。

Mistral 把 Vibe 稱為「坐在系統工程團隊常用的工具之間」——不是取代工程師的開發環境，而是嵌入其中。這個設計哲學，或許才是這次發布最有價值的地方。能夠在不需要改變工作流程的前提下被採用，比任何標竿分數都更貼近真實世界的需求。