開源模型 Kimi K2.6 打敗 Claude、GPT-5.5：一場編碼競賽的真實結果

開頭

「來自中國新創 Moonshot AI 的開源模型 Kimi K2.6，在即時編程挑戰中擊敗了 OpenAI 的 GPT-5.5、Anthropic 的 Claude Opus 4.7、以及 Google 的 Gemini Pro 3.1。」

這不是口號，不是 PPT 上的路線圖，而是 AI Coding Contest 第 12 天的實際比賽結果。主辦人 Rohana Rezel 的評語很直接：「結果不是大多數人預測的那樣。」

比賽背景：一場真正能看出高下的即時挑戰

AI Coding Contest（簡稱 AICC）是一個持續性的編程競賽，由技術研究員 Rohana Rezel 在 Vancouver 主辦。與傳統的標準化基準測試不同，AICC 的特色在於即時對戰：所有參賽模型必須連接真實的遊戲伺服器，在限定時間內撰寫程式碼來完成特定任務，並且直接與其他模型對決。

第 12 天的挑戰是 Word Gem Puzzle（單字寶石拼圖），一個滑動字母拼圖遊戲。遊戲規則如下：

棋盤是一個矩形網格（10×10、15×15、20×20、25×25、30×30 五種尺寸），填滿字母瓷磚和一個空格
模型可以將相鄰瓷磚滑入空格，並在任意時刻宣告水平或垂直方向上組成的有效英文單字
對角線和反向不算分
計分規則很特別：長單字有獎勵，短單字反而扣分
7 個字母以上的單字，分數 = 長度 − 6（所以 8 字母的得 2 分）
5 字母單字扣 1 分、4 字母扣 2 分、3 字母扣 3 分
同一個單字只能被宣告一次，先搶先贏
每對模型打五回合，每回合有 10 秒的牆上時間限制

棋盤的設計也很有巧思：預先埋入真實的字典單詞（跨字謎風格），其餘格子用字母填充（權重依據 Scrabble 字母頻率），最後再打亂空格。在 10×10 的小棋盤上，許多原有的單詞還能保留；但在 30×30 的大棋盤上，幾乎什麼都不剩了——模型必須自己想辦法滑動拼出單字。

這個設計後來被證明是這場比賽的關鍵分水嶺。

結果：誰贏了，誰輸了，差距有多大？

九個模型實際參賽（Nvidia 的 Nemotron Super 3 因程式碼有語法錯誤而未能連上伺服器）。最終排名如下：

排名	模型	對戰積分	戰績
1	Kimi K2.6（Moonshot AI）	22	7-1-0
2	MiMo V2-Pro（小米）	20	6-2-0
3	ChatGPT GPT-5.5（OpenAI）	16	5-1-2
4	GLM 5.1（智譜 AI）	15	5-0-3
5	Claude Opus 4.7（Anthropic）	12	4-0-4
6	Gemini Pro 3.1（Google）	9	3-0-5
7	Grok Expert 4.2（xAI）	9	3-0-5
8	DeepSeek V4（深度求索）	3	1-0-7
9	Muse Spark	0	0-0-8

關鍵發現：前兩名都是中國模型（Kimi K2.6 和 MiMo V2-Pro），而 OpenAI、Anthropic、Google、xAI 的旗艦模型則落在第三到第七名。但主辦人特別強調，這不是單純的「中國打敗西方」故事——它是兩個特定模型的勝利。

Kimi 是怎麼贏的？貪婪策略與大量滑動

Rezel 詳細分析了各模型的棋步紀錄。Kimi 的策略非常直接：

貪婪演算法：每次評估所有可行的滑動動作，選擇能解鎖最高價值新單字的那一步。如果沒有動作能解鎖正分數的單字，就按照字母順序往第一個合法方向滑。

這個策略有個明顯的缺點：在某些情況下，Kimi 會陷入「邊緣振盪」（edge oscillation）——在兩個格子之間來回滑動，沒有任何進展。在小棋盤上（原本的單詞還算完整），這個問題會拖累表現。

然而，在 30×30 的大棋盤上——也就是拼圖被打亂得最徹底、幾乎沒有現成單字可用的極端場景——Kimi 的優勢完全展現出來。因為它不斷地滑動、不斷地嘗試，最終拼出了比任何其他模型都多的單字。Kimi 的累計得分 77 分，是全場最高。

Rezel 的觀察是：「在其他模型已經沒有東西可宣告的時候，Kimi 那套不完美但持續運作的貪婪循環，還在不間斷地產出結果。」

MiMo 的策略：完全不滑動

小米的 MiMo V2-Pro 採取了完全相反的戰術：從頭到尾沒有滑動過一次。

滑動程式碼存在 MiMo 的程式庫中，但它的「最佳值大於零」的門檻條件從未被觸發過，所以在實戰中它從未啟動滑動流程。它的策略是：直接掃描初始棋盤，找出七個字母以上的單詞，然後一次全部宣告——用一個 TCP 封包發送出去。

這是一個非常脆弱的策略。結果完全依賴於打亂後棋盤上還剩下多少可用的單詞。如果運氣好，棋盤上保留了一些長單詞，MiMo 就能快速收割；如果運氣不好（尤其是 30×30 的大棋盤），它就什麼也得不到。

最終 MiMo 的累計得分是 43 分，排名第二。雖然 Kimi 和 MiMo 使用了幾乎相反的策略，但最後只差 2 分——這也說明了部分差距來自種子變異（seed variance），而非單純的模型能力差距。

GPT-5.5 與 Claude：保守表現的背後

GPT-5.5 每回合大約滑動 120 次，帶有上限以防止過度抖動。它在 15×15 和 30×30 的棋盤上表現最佳，最終以 16 分排名第三。

Claude Opus 4.7 則和 MiMo 一樣沒有滑動。它在 25×25 的棋盤上表現不錯（打亂密度還在可控範圍內），但在 30×30 的棋盤上徹底失效——因為在這個尺寸下，不動起來就幾乎沒有得分機會。最終以 12 分排在第五名。

根據 Rezel 的分析，Claude 在需要實際移動瓷磚的場景中展現出明顯的限制。一個以滑動為核心建立的拼圖遊戲，不滑動的模型自然會吃虧。

DeepSeek 和 Muse 的教訓：最糟的兩種失敗方式

比排名更值得關注的是墊底的兩個模型，它們展示了兩種不同類型的失敗。

DeepSeek V4 在每一回合都發送了格式錯誤的資料，完全沒有任何有效輸出。至少，它沒有讓事情變得更糟——只是完全沒用。

Muse Spark 則恰恰相反：它讓事情變得非常糟糕。

Muse 的策略是：宣告它能找到的每一個單字，無論長短。這是因為計分規則對短單字有嚴厲懲罰（3 字母扣 3 分、4 字母扣 2 分、5 字母扣 1 分），所有認真參賽的模型都將字典過濾為七個字母以上的單詞。但 Muse 沒有，它選擇了「地毯式轟炸」。

結果是 Muse 的累計得分是 −15,309 分。它在全部八場比賽中一場未贏、一回合未勝。

Rezel 的評論非常犀利：「如果 Muse 只是連上伺服器然後什麼都不做，它會得到 0 分——比實際表現好 15,309 分。」Muse 與第八名的差距，比第八名與第一名的差距還要大。

這揭示了兩個關鍵教訓：
– DeepSeek 的失敗：反映了模型在不熟悉的新協定規格下，在時間壓力中處理結構化輸出時的弱點
– Muse 的失敗：展示了模型讀懂任務只是部分理解的風險。Muse 看到了合法的單詞、也宣告了它們，但完全沒有理解在計分規則下什麼叫做「有效的策略」

對於任何將模型部署到有懲罰機制的結構化任務上的人來說，這都是一個重要的提醒。

更大的圖景：開源模型正在逼近前沿

為什麼這個結果值得關注？不是因為 Kimi K2.6 在某個奇怪的拼圖遊戲中贏了。

更值得關注的是：Kimi K2.6 是開源模型（open-weights），任何人都可以下載並在本地運行。它來自 2023 年成立的 Moonshot AI。根據 Artificial Analysis Intelligence Index 的評分，Kimi K2.6 得分 54，GPT-5.5 得分 60，Claude 得分 57——雖然還不是完全平等，但差距已經小到可以在實際比賽中顯現出來了。

正如 Rezel 所說：「當距離前沿只有幾個指數點的模型可以免費在本地運行時，這與一年前存在的競爭狀況已經完全不同了。」

這個情境對開發者生態的影響很直接：開源模型的可用性正在縮小「只有頂級閉源模型才能做的事」與「任何人用免費資源都能做的事」之間的差距。

這對台灣開發者和創業者意味著什麼

回到台灣讀者熟悉的場景。過去一年，台灣的 AI 開發社群面臨一個共同的難題：想要使用最先進的模型，就必須依賴 OpenAI、Anthropic、Google 的 API 服務。對於有資料隱私考量（特別是金融、醫療、半導體領域）的團隊來說，這是一個真實的障礙——資料不能外傳、API 成本高昂、依賴單一供應商存在風險。

Kimi K2.6 的表現提供了一個不同的可能性。一個可以在本地部署、無須將敏感資料傳送到雲端的開源模型，在特定任務上能夠與 Claude 和 GPT-5.5 競爭。當然，不是所有任務都一樣——這個比賽測試的是即時決策和實作特定協定的能力，而不是長上下文推理或從規格生成程式碼的能力——但至少在特定領域，開源選項正在變得可行。

另一個值得關注的點是硬體的國產化趨勢。台灣在半導體和硬體供應鏈有深厚的基礎，當開源模型的品質持續提升時，未來可能出現更多「本地晶片 + 開源模型」的組合方案，為企業提供不受海外 API 政策變動影響的 AI 部署選項。

當然，這不是說台灣團隊應該立刻放棄 GPT-5.5 轉用 Kimi K2.6。而是說，在選擇 AI 基礎設施時，開源不再天然是一個劣勢選項。對成本敏感、有資料隱私需求、或者想要更多控制權的團隊，值得花時間實際測試這些開源模型在自家應用場景中的表現。

結尾

一場拼圖比賽中出現的結果，不會在明天就改寫整個 AI 產業的權力地圖。但 Kimi K2.6 的這次勝利提供了一個值得留意的信號：開源與閉源之間的競爭已經從「我們何時能追上」變成了「我們在某些任務上已經能打平」。對於每一個正在規劃 AI 戰略的團隊來說，這意味著未來的選擇不會只是誰的模型最強，而是誰的模型能為你的特定場景提供最好的平衡——能力、成本、控制權、資料安全，這些維度都需要放進考量。而當開源模型持續進步時，天平正在悄悄傾斜。

發布檢查清單

[x] 今天/昨天沒有相同主題的文章（防重複）
[x] 所有數據都有來源（AICC 比賽結果、Artificial Analysis Intelligence Index）
[x] 標題沒有超過 1 個驚嘆號
[x] 沒有出現禁止詞彙
[x] 開頭是數據/新聞事件切入，非虛構場景
[x] 結尾為觀察家風格，非教學文/報告式模板
[x] 字數約 3500 字（合理範圍內）