「這個 PR 審了兩個小時,改了三行程式碼、跑了五分鐘的 CI。」這是很多開發者共同的日常。程式碼審查、依賴升級、issue 分類、測試生成——這些重複性高但又需要判斷力的工作,佔據了工程團隊大量的時間。

Mistral 今天的發布,或許會改變這個局面。

他們推出了 Mistral Medium 3.5——一個 128B 參數的稠密模型,在 SWE-Bench Verified 上拿下 77.6% 的分數,同時提供了兩個重要的新功能:Vibe 遠端 Coding Agent 和 Le Chat 的 Work 模式。這不是一次簡單的模型更新,而是朝著「開發者可以同時啟動多個 AI Agent,然後去做真正需要人類判斷的事」這個方向,邁出的一大步。


Mistral Medium 3.5:不是 MoE,是稠密模型

過去一年,大部分的 LLM 新模型都採用了 MoE(混合專家)架構——把多個小模型組合在一起,在推理時只啟動部分參數,以平衡效能和成本。Mistral 這次走了一條不同的路:Medium 3.5 是一個純粹的稠密模型,128B 參數全部參與每次推理。

為什麼這很重要?稠密模型的訓練和推理都更直接,沒有 MoE 的路由瓶頸,也沒有「專家分配不均」的問題。對於自架部署的人來說,這代表更可預測的效能和更簡單的運維。

模型的幾項關鍵規格:

值得注意的一個設計細節:Mistral Medium 3.5 的推理成本可以按請求調整。同一個模型可以做快速回應,也可以花更多計算資源處理複雜的 agentic 任務。同時,Mistral 也從零開始訓練了視覺編碼器,支援多種圖片尺寸和長寬比,而不是強制縮放到固定解析度。

把這個成績放在上下文來看:SWE-Bench Verified 是目前衡量模型程式碼能力的標準標竿,測試的是模型能否獨立修復真實的 GitHub issue。77.6% 這個數字,意味著模型能夠處理超過七成半的真實程式碼問題——這已經接近一個中階開發者 solo 時的表現水準。

開源授權意味著什麼

Mistral 選擇了 modified MIT 授權發布 Medium 3.5 的權重。這是一個極度寬鬆的開源授權,允許商業使用、修改、再發布,幾乎沒有限制。

對比來看:

對於台灣的企業和開發者來說,這代表可以在自己的基礎設施上自由部署這個模型,不需要擔心授權合規問題。特別是處理敏感資料的金融、醫療、半導體等產業,可以完全在內網運行,資料不外流。

Vibe 遠端 Coding Agent:開發者的平行宇宙

這是 Mistral 這次發布中最有趣的部分。Vibe CLI 原本是 Mistral 的本地 Coding Agent 工具,今天的更新讓它可以將 coding session 上傳到雲端執行。

想像一個情境:早上進辦公室,發現 CI 又紅燈了。你打開終端機,用 Vibe CLI 啟動一個 Remote Agent 去排查 CI 問題。與此同時,另一個 Agent 正在幫你處理昨天收到的 dependency upgrade PR。第三個 Agent 在生成新功能的單元測試。

它們全部同時在跑,你不需要盯著螢幕等任何一個完成。

Mistral 的 Vibe Remote Agent 有幾個關鍵設計:

1. 雲端隔離沙盒
每個 coding session 都在獨立的沙盒中執行,支援大範圍的檔案編輯和套件安裝。這意味著 Agent 可以自由嘗試不同的解決方案,即使寫出有問題的程式碼,也不會影響你的開發環境。

2. 與既有工具鏈整合
Vibe 對接的系統包括:
– GitHub(程式碼和 PR)
– Linear 和 Jira(issue 管理)
– Sentry(錯誤監控)
– Slack 和 Teams(通知回報)

工程團隊不需要改變既有工作流程,Agent 發 PR 到 GitHub、在 Slack 通知結果——開發者只需要 review 結果,而不是每行程式碼都要盯著。

3. 從 Le Chat 啟動 coding 任務
Mistral 把 Vibe 的程式碼 Agent 直接整合進了 Le Chat。你可以在對話中描述一個 coding 任務(「幫我重構這個 module 的 error handling」),Agent 在雲端開始工作,完成後直接開一個 PR。不需要開啟終端機,不需要擔心 session 中斷。

4. Teleport:本地 session 一鍵上雲
如果你已經用 Vibe CLI 在本地啟動了一個 coding session,進行到一半發現它需要跑很久——你可以在離開座位前把它「teleport」到雲端。Session 的歷史、任務狀態、授權記錄全部跟著過去。

Work 模式:Le Chat 變成了多步驟執行引擎

除了程式碼 Agent,Mistral 還推出了 Le Chat 的 Work 模式(預覽版)。這是一個全新的 Agent 架構,讓 Le Chat 可以執行多步驟的複雜任務。

Work 模式解決的核心問題是:一般的 chatbot 對話只能做單一回應——你問一句,它回一句。但現實中的工作流程通常是多步驟、跨工具的。例如:「幫我回顧這週的 email,挑出需要立即回覆的三封,查一下會議邀請對象的背景資訊,然後把這些整理發到 Slack 給團隊。」

Work 模式的幾個應用案例:

跨工具工作流
一個請求可以觸發多個工具的協作:讀取 email、檢查行事曆、搜尋網頁、查閱內部文件——然後產出結構化的報告或草稿回覆。所有這些動作在同一個 session 中完成。

研究與彙整
輸入一個主題,Agent 會自動搜尋網路、內部文件、連接的工具,然後產出可以編輯的摘要或報告。完成後你可以修改再匯出——不是直接發送,而是先讓你審查。

收件匣分類與草稿回覆
根據你的郵件內容和溝通記錄,自動分類收件匣,產出草稿回覆,或在 Jira 中建立 issue。

Work 模式中,Agent 的每個動作都是可見的——你可以看到它調用了哪些工具、做了什麼決策。涉及敏感操作(發送訊息、寫入文件、修改資料)時,會要求明確授權。

對台灣開發者的實際意義

小型團隊:AI Agent 當作平行工程師

台灣有大量 3-10 人的小型開發團隊。這些團隊最痛的是「什麼都要做」——新功能開發、CI 維護、issue 管理、技術債清理——一個人很難同時兼顧。

Vibe Remote Agent 的「平行執行」特性,讓一人團隊可以同時啟動多個 Agent 處理不同任務。假設你是 3 人團隊的唯一後端工程師,你可以派一個 Agent 去修一個 bug,另一個去寫測試,第三個去升級過時的依賴庫——同時間進行。

自架部署:四張 GPU 的門檻

對於需要資料落地的企業,Mistral Medium 3.5 的自架門檻是四張 GPU。這與 Llama 3 70B 的部署需求接近,但 Medium 3.5 的參數規模更大、程式碼能力更強。

台灣的雲端服務商(如中華電信 hicloud、遠傳、GCP 台灣機房)都提供 GPU 實例,四張 A100 或 L40S 的成本,對中大型企業來說是可負擔的範圍。

潛在應用場景

金融業:自動化程式碼審查與合規檢查。Agent 可以在不離開內網的情況下,掃描程式碼中的安全漏洞和合規問題,生成報告。

半導體製造:自動化測試生成與 CI 維護。晶片設計軟體(EDA)相關的測試腳本維護,可以部分交由 Agent 處理。

軟體 SaaS 公司:客服 issue 自動分類與修復建議。Agent 連接 Sentry 和 Jira,自動分析錯誤日誌並建議修復方向。


在自家 GPU 上跑 Medium 3.5 的基本路徑

如果你有 GPU 資源(四張以上),以下是部署 Medium 3.5 的基本步驟:

硬體需求

使用 Hugging Face 下載

Mistral 已將權重發布在 Hugging Face:

git lfs install
git clone https://huggingface.co/mistralai/Mistral-Medium-3.5

使用 vLLM 部署

vLLM 是目前最常見的推理框架,支援 continuous batching:

pip install vllm
python -m vllm.entrypoints.openai.api_server \
    --model mistralai/Mistral-Medium-3.5 \
    --tensor-parallel-size 4 \
    --max-model-len 32768

使用 NVIDIA NIM

NVIDIA 也提供了容器化方案:

docker pull nvcr.io/nim/mistralai/mistral-medium-3.5-128b:latest
docker run --gpus all ... nvcr.io/nim/mistralai/mistral-medium-3.5-128b

API 呼叫(如果使用 Mistral 雲端)

from mistralai import Mistral
client = Mistral(api_key="YOUR_API_KEY")
response = client.chat.complete(
    model="mistral-medium-3.5",
    messages=[{"role": "user", "content": "解釋 mmap 在 Linux 中的運作原理"}]
)

與競品比較

Mistral Medium 3.5 在同級模型中的定位相當有意思。

模型 參數架構 SWE-Bench Verified 授權 自架門檻
Mistral Medium 3.5 128B 稠密 77.6% modified MIT 4 GPU
Qwen3.5 397B A17B MoE 397B ~70% 區間 Apache 2.0 8+ GPU
Llama 3 405B 405B 稠密 ~72% 區間 Llama 授權 16+ GPU
Devstral 2 56B 稠密 ~74% 區間 商業授權 2 GPU
DeepSeek-V3 MoE 671B ~75% 區間 Apache 2.0 8+ GPU

(標竿數字來源:Mistral AI 官方公告及公開 SWE-Bench 排行榜)

Medium 3.5 的優勢在於:用 128B 的參數規模達到了超越更大模型的標竿成績,而且授權寬鬆、自架門檻相對較低。對於不想依賴 API、又需要高效能程式碼模型的團隊來說,這可能是目前最平衡的選擇。


結語

Mistral 這一步,不只是一個新模型。

Medium 3.5 加上 Vibe Remote Agent 和 Work 模式,構成了完整的 Agent 基礎設施:模型負責判斷和執行,雲端架構負責可擴展性和隔離,工具整合負責和既有系統對接。

對開發者來說,最直接的感受是:你終於可以把重複性工作交給多個 Agent 平行處理,自己專注在真正需要判斷力的事情上。不是「AI 取代工程師」,而是「每個工程師都有好幾個 AI 實習生在背後幫忙跑腿」。

對企業來說,開源授權和低自架門檻意味著:這個能力不是只有大公司才用得起。四張 GPU 就能跑起來的 128B 模型,加上 modified MIT 授權,代表不只是雲端服務,而是真正可以落地到自家機房或台灣的雲端機房。

Mistral 把 Vibe 稱為「坐在系統工程團隊常用的工具之間」——不是取代工程師的開發環境,而是嵌入其中。這個設計哲學,或許才是這次發布最有價值的地方。能夠在不需要改變工作流程的前提下被採用,比任何標竿分數都更貼近真實世界的需求。