開頭
「來自中國新創 Moonshot AI 的開源模型 Kimi K2.6,在即時編程挑戰中擊敗了 OpenAI 的 GPT-5.5、Anthropic 的 Claude Opus 4.7、以及 Google 的 Gemini Pro 3.1。」
這不是口號,不是 PPT 上的路線圖,而是 AI Coding Contest 第 12 天的實際比賽結果。主辦人 Rohana Rezel 的評語很直接:「結果不是大多數人預測的那樣。」
比賽背景:一場真正能看出高下的即時挑戰
AI Coding Contest(簡稱 AICC)是一個持續性的編程競賽,由技術研究員 Rohana Rezel 在 Vancouver 主辦。與傳統的標準化基準測試不同,AICC 的特色在於即時對戰:所有參賽模型必須連接真實的遊戲伺服器,在限定時間內撰寫程式碼來完成特定任務,並且直接與其他模型對決。
第 12 天的挑戰是 Word Gem Puzzle(單字寶石拼圖),一個滑動字母拼圖遊戲。遊戲規則如下:
- 棋盤是一個矩形網格(10×10、15×15、20×20、25×25、30×30 五種尺寸),填滿字母瓷磚和一個空格
- 模型可以將相鄰瓷磚滑入空格,並在任意時刻宣告水平或垂直方向上組成的有效英文單字
- 對角線和反向不算分
- 計分規則很特別:長單字有獎勵,短單字反而扣分
- 7 個字母以上的單字,分數 = 長度 − 6(所以 8 字母的得 2 分)
- 5 字母單字扣 1 分、4 字母扣 2 分、3 字母扣 3 分
- 同一個單字只能被宣告一次,先搶先贏
- 每對模型打五回合,每回合有 10 秒的牆上時間限制
棋盤的設計也很有巧思:預先埋入真實的字典單詞(跨字謎風格),其餘格子用字母填充(權重依據 Scrabble 字母頻率),最後再打亂空格。在 10×10 的小棋盤上,許多原有的單詞還能保留;但在 30×30 的大棋盤上,幾乎什麼都不剩了——模型必須自己想辦法滑動拼出單字。
這個設計後來被證明是這場比賽的關鍵分水嶺。
結果:誰贏了,誰輸了,差距有多大?
九個模型實際參賽(Nvidia 的 Nemotron Super 3 因程式碼有語法錯誤而未能連上伺服器)。最終排名如下:
| 排名 | 模型 | 對戰積分 | 戰績 |
|---|---|---|---|
| 1 | Kimi K2.6(Moonshot AI) | 22 | 7-1-0 |
| 2 | MiMo V2-Pro(小米) | 20 | 6-2-0 |
| 3 | ChatGPT GPT-5.5(OpenAI) | 16 | 5-1-2 |
| 4 | GLM 5.1(智譜 AI) | 15 | 5-0-3 |
| 5 | Claude Opus 4.7(Anthropic) | 12 | 4-0-4 |
| 6 | Gemini Pro 3.1(Google) | 9 | 3-0-5 |
| 7 | Grok Expert 4.2(xAI) | 9 | 3-0-5 |
| 8 | DeepSeek V4(深度求索) | 3 | 1-0-7 |
| 9 | Muse Spark | 0 | 0-0-8 |
關鍵發現:前兩名都是中國模型(Kimi K2.6 和 MiMo V2-Pro),而 OpenAI、Anthropic、Google、xAI 的旗艦模型則落在第三到第七名。但主辦人特別強調,這不是單純的「中國打敗西方」故事——它是兩個特定模型的勝利。
Kimi 是怎麼贏的?貪婪策略與大量滑動
Rezel 詳細分析了各模型的棋步紀錄。Kimi 的策略非常直接:
貪婪演算法:每次評估所有可行的滑動動作,選擇能解鎖最高價值新單字的那一步。如果沒有動作能解鎖正分數的單字,就按照字母順序往第一個合法方向滑。
這個策略有個明顯的缺點:在某些情況下,Kimi 會陷入「邊緣振盪」(edge oscillation)——在兩個格子之間來回滑動,沒有任何進展。在小棋盤上(原本的單詞還算完整),這個問題會拖累表現。
然而,在 30×30 的大棋盤上——也就是拼圖被打亂得最徹底、幾乎沒有現成單字可用的極端場景——Kimi 的優勢完全展現出來。因為它不斷地滑動、不斷地嘗試,最終拼出了比任何其他模型都多的單字。Kimi 的累計得分 77 分,是全場最高。
Rezel 的觀察是:「在其他模型已經沒有東西可宣告的時候,Kimi 那套不完美但持續運作的貪婪循環,還在不間斷地產出結果。」
MiMo 的策略:完全不滑動
小米的 MiMo V2-Pro 採取了完全相反的戰術:從頭到尾沒有滑動過一次。
滑動程式碼存在 MiMo 的程式庫中,但它的「最佳值大於零」的門檻條件從未被觸發過,所以在實戰中它從未啟動滑動流程。它的策略是:直接掃描初始棋盤,找出七個字母以上的單詞,然後一次全部宣告——用一個 TCP 封包發送出去。
這是一個非常脆弱的策略。結果完全依賴於打亂後棋盤上還剩下多少可用的單詞。如果運氣好,棋盤上保留了一些長單詞,MiMo 就能快速收割;如果運氣不好(尤其是 30×30 的大棋盤),它就什麼也得不到。
最終 MiMo 的累計得分是 43 分,排名第二。雖然 Kimi 和 MiMo 使用了幾乎相反的策略,但最後只差 2 分——這也說明了部分差距來自種子變異(seed variance),而非單純的模型能力差距。
GPT-5.5 與 Claude:保守表現的背後
GPT-5.5 每回合大約滑動 120 次,帶有上限以防止過度抖動。它在 15×15 和 30×30 的棋盤上表現最佳,最終以 16 分排名第三。
Claude Opus 4.7 則和 MiMo 一樣沒有滑動。它在 25×25 的棋盤上表現不錯(打亂密度還在可控範圍內),但在 30×30 的棋盤上徹底失效——因為在這個尺寸下,不動起來就幾乎沒有得分機會。最終以 12 分排在第五名。
根據 Rezel 的分析,Claude 在需要實際移動瓷磚的場景中展現出明顯的限制。一個以滑動為核心建立的拼圖遊戲,不滑動的模型自然會吃虧。
DeepSeek 和 Muse 的教訓:最糟的兩種失敗方式
比排名更值得關注的是墊底的兩個模型,它們展示了兩種不同類型的失敗。
DeepSeek V4 在每一回合都發送了格式錯誤的資料,完全沒有任何有效輸出。至少,它沒有讓事情變得更糟——只是完全沒用。
Muse Spark 則恰恰相反:它讓事情變得非常糟糕。
Muse 的策略是:宣告它能找到的每一個單字,無論長短。這是因為計分規則對短單字有嚴厲懲罰(3 字母扣 3 分、4 字母扣 2 分、5 字母扣 1 分),所有認真參賽的模型都將字典過濾為七個字母以上的單詞。但 Muse 沒有,它選擇了「地毯式轟炸」。
結果是 Muse 的累計得分是 −15,309 分。它在全部八場比賽中一場未贏、一回合未勝。
Rezel 的評論非常犀利:「如果 Muse 只是連上伺服器然後什麼都不做,它會得到 0 分——比實際表現好 15,309 分。」Muse 與第八名的差距,比第八名與第一名的差距還要大。
這揭示了兩個關鍵教訓:
– DeepSeek 的失敗:反映了模型在不熟悉的新協定規格下,在時間壓力中處理結構化輸出時的弱點
– Muse 的失敗:展示了模型讀懂任務只是部分理解的風險。Muse 看到了合法的單詞、也宣告了它們,但完全沒有理解在計分規則下什麼叫做「有效的策略」
對於任何將模型部署到有懲罰機制的結構化任務上的人來說,這都是一個重要的提醒。
更大的圖景:開源模型正在逼近前沿
為什麼這個結果值得關注?不是因為 Kimi K2.6 在某個奇怪的拼圖遊戲中贏了。
更值得關注的是:Kimi K2.6 是開源模型(open-weights),任何人都可以下載並在本地運行。它來自 2023 年成立的 Moonshot AI。根據 Artificial Analysis Intelligence Index 的評分,Kimi K2.6 得分 54,GPT-5.5 得分 60,Claude 得分 57——雖然還不是完全平等,但差距已經小到可以在實際比賽中顯現出來了。
正如 Rezel 所說:「當距離前沿只有幾個指數點的模型可以免費在本地運行時,這與一年前存在的競爭狀況已經完全不同了。」
這個情境對開發者生態的影響很直接:開源模型的可用性正在縮小「只有頂級閉源模型才能做的事」與「任何人用免費資源都能做的事」之間的差距。
這對台灣開發者和創業者意味著什麼
回到台灣讀者熟悉的場景。過去一年,台灣的 AI 開發社群面臨一個共同的難題:想要使用最先進的模型,就必須依賴 OpenAI、Anthropic、Google 的 API 服務。對於有資料隱私考量(特別是金融、醫療、半導體領域)的團隊來說,這是一個真實的障礙——資料不能外傳、API 成本高昂、依賴單一供應商存在風險。
Kimi K2.6 的表現提供了一個不同的可能性。一個可以在本地部署、無須將敏感資料傳送到雲端的開源模型,在特定任務上能夠與 Claude 和 GPT-5.5 競爭。當然,不是所有任務都一樣——這個比賽測試的是即時決策和實作特定協定的能力,而不是長上下文推理或從規格生成程式碼的能力——但至少在特定領域,開源選項正在變得可行。
另一個值得關注的點是硬體的國產化趨勢。台灣在半導體和硬體供應鏈有深厚的基礎,當開源模型的品質持續提升時,未來可能出現更多「本地晶片 + 開源模型」的組合方案,為企業提供不受海外 API 政策變動影響的 AI 部署選項。
當然,這不是說台灣團隊應該立刻放棄 GPT-5.5 轉用 Kimi K2.6。而是說,在選擇 AI 基礎設施時,開源不再天然是一個劣勢選項。對成本敏感、有資料隱私需求、或者想要更多控制權的團隊,值得花時間實際測試這些開源模型在自家應用場景中的表現。
結尾
一場拼圖比賽中出現的結果,不會在明天就改寫整個 AI 產業的權力地圖。但 Kimi K2.6 的這次勝利提供了一個值得留意的信號:開源與閉源之間的競爭已經從「我們何時能追上」變成了「我們在某些任務上已經能打平」。對於每一個正在規劃 AI 戰略的團隊來說,這意味著未來的選擇不會只是誰的模型最強,而是誰的模型能為你的特定場景提供最好的平衡——能力、成本、控制權、資料安全,這些維度都需要放進考量。而當開源模型持續進步時,天平正在悄悄傾斜。
發布檢查清單
- [x] 今天/昨天沒有相同主題的文章(防重複)
- [x] 所有數據都有來源(AICC 比賽結果、Artificial Analysis Intelligence Index)
- [x] 標題沒有超過 1 個驚嘆號
- [x] 沒有出現禁止詞彙
- [x] 開頭是數據/新聞事件切入,非虛構場景
- [x] 結尾為觀察家風格,非教學文/報告式模板
- [x] 字數約 3500 字(合理範圍內)