開頭

「來自中國新創 Moonshot AI 的開源模型 Kimi K2.6,在即時編程挑戰中擊敗了 OpenAI 的 GPT-5.5、Anthropic 的 Claude Opus 4.7、以及 Google 的 Gemini Pro 3.1。」

這不是口號,不是 PPT 上的路線圖,而是 AI Coding Contest 第 12 天的實際比賽結果。主辦人 Rohana Rezel 的評語很直接:「結果不是大多數人預測的那樣。」

比賽背景:一場真正能看出高下的即時挑戰

AI Coding Contest(簡稱 AICC)是一個持續性的編程競賽,由技術研究員 Rohana Rezel 在 Vancouver 主辦。與傳統的標準化基準測試不同,AICC 的特色在於即時對戰:所有參賽模型必須連接真實的遊戲伺服器,在限定時間內撰寫程式碼來完成特定任務,並且直接與其他模型對決。

第 12 天的挑戰是 Word Gem Puzzle(單字寶石拼圖),一個滑動字母拼圖遊戲。遊戲規則如下:

棋盤的設計也很有巧思:預先埋入真實的字典單詞(跨字謎風格),其餘格子用字母填充(權重依據 Scrabble 字母頻率),最後再打亂空格。在 10×10 的小棋盤上,許多原有的單詞還能保留;但在 30×30 的大棋盤上,幾乎什麼都不剩了——模型必須自己想辦法滑動拼出單字

這個設計後來被證明是這場比賽的關鍵分水嶺。

結果:誰贏了,誰輸了,差距有多大?

九個模型實際參賽(Nvidia 的 Nemotron Super 3 因程式碼有語法錯誤而未能連上伺服器)。最終排名如下:

排名 模型 對戰積分 戰績
1 Kimi K2.6(Moonshot AI) 22 7-1-0
2 MiMo V2-Pro(小米) 20 6-2-0
3 ChatGPT GPT-5.5(OpenAI) 16 5-1-2
4 GLM 5.1(智譜 AI) 15 5-0-3
5 Claude Opus 4.7(Anthropic) 12 4-0-4
6 Gemini Pro 3.1(Google) 9 3-0-5
7 Grok Expert 4.2(xAI) 9 3-0-5
8 DeepSeek V4(深度求索) 3 1-0-7
9 Muse Spark 0 0-0-8

關鍵發現:前兩名都是中國模型(Kimi K2.6 和 MiMo V2-Pro),而 OpenAI、Anthropic、Google、xAI 的旗艦模型則落在第三到第七名。但主辦人特別強調,這不是單純的「中國打敗西方」故事——它是兩個特定模型的勝利

Kimi 是怎麼贏的?貪婪策略與大量滑動

Rezel 詳細分析了各模型的棋步紀錄。Kimi 的策略非常直接:

貪婪演算法:每次評估所有可行的滑動動作,選擇能解鎖最高價值新單字的那一步。如果沒有動作能解鎖正分數的單字,就按照字母順序往第一個合法方向滑。

這個策略有個明顯的缺點:在某些情況下,Kimi 會陷入「邊緣振盪」(edge oscillation)——在兩個格子之間來回滑動,沒有任何進展。在小棋盤上(原本的單詞還算完整),這個問題會拖累表現。

然而,在 30×30 的大棋盤上——也就是拼圖被打亂得最徹底、幾乎沒有現成單字可用的極端場景——Kimi 的優勢完全展現出來。因為它不斷地滑動、不斷地嘗試,最終拼出了比任何其他模型都多的單字。Kimi 的累計得分 77 分,是全場最高。

Rezel 的觀察是:「在其他模型已經沒有東西可宣告的時候,Kimi 那套不完美但持續運作的貪婪循環,還在不間斷地產出結果。」

MiMo 的策略:完全不滑動

小米的 MiMo V2-Pro 採取了完全相反的戰術:從頭到尾沒有滑動過一次

滑動程式碼存在 MiMo 的程式庫中,但它的「最佳值大於零」的門檻條件從未被觸發過,所以在實戰中它從未啟動滑動流程。它的策略是:直接掃描初始棋盤,找出七個字母以上的單詞,然後一次全部宣告——用一個 TCP 封包發送出去。

這是一個非常脆弱的策略。結果完全依賴於打亂後棋盤上還剩下多少可用的單詞。如果運氣好,棋盤上保留了一些長單詞,MiMo 就能快速收割;如果運氣不好(尤其是 30×30 的大棋盤),它就什麼也得不到。

最終 MiMo 的累計得分是 43 分,排名第二。雖然 Kimi 和 MiMo 使用了幾乎相反的策略,但最後只差 2 分——這也說明了部分差距來自種子變異(seed variance),而非單純的模型能力差距。

GPT-5.5 與 Claude:保守表現的背後

GPT-5.5 每回合大約滑動 120 次,帶有上限以防止過度抖動。它在 15×15 和 30×30 的棋盤上表現最佳,最終以 16 分排名第三。

Claude Opus 4.7 則和 MiMo 一樣沒有滑動。它在 25×25 的棋盤上表現不錯(打亂密度還在可控範圍內),但在 30×30 的棋盤上徹底失效——因為在這個尺寸下,不動起來就幾乎沒有得分機會。最終以 12 分排在第五名。

根據 Rezel 的分析,Claude 在需要實際移動瓷磚的場景中展現出明顯的限制。一個以滑動為核心建立的拼圖遊戲,不滑動的模型自然會吃虧。

DeepSeek 和 Muse 的教訓:最糟的兩種失敗方式

比排名更值得關注的是墊底的兩個模型,它們展示了兩種不同類型的失敗。

DeepSeek V4 在每一回合都發送了格式錯誤的資料,完全沒有任何有效輸出。至少,它沒有讓事情變得更糟——只是完全沒用。

Muse Spark 則恰恰相反:它讓事情變得非常糟糕。

Muse 的策略是:宣告它能找到的每一個單字,無論長短。這是因為計分規則對短單字有嚴厲懲罰(3 字母扣 3 分、4 字母扣 2 分、5 字母扣 1 分),所有認真參賽的模型都將字典過濾為七個字母以上的單詞。但 Muse 沒有,它選擇了「地毯式轟炸」。

結果是 Muse 的累計得分是 −15,309 分。它在全部八場比賽中一場未贏、一回合未勝。

Rezel 的評論非常犀利:「如果 Muse 只是連上伺服器然後什麼都不做,它會得到 0 分——比實際表現好 15,309 分。」Muse 與第八名的差距,比第八名與第一名的差距還要大。

這揭示了兩個關鍵教訓:
DeepSeek 的失敗:反映了模型在不熟悉的新協定規格下,在時間壓力中處理結構化輸出時的弱點
Muse 的失敗:展示了模型讀懂任務只是部分理解的風險。Muse 看到了合法的單詞、也宣告了它們,但完全沒有理解在計分規則下什麼叫做「有效的策略」

對於任何將模型部署到有懲罰機制的結構化任務上的人來說,這都是一個重要的提醒。

更大的圖景:開源模型正在逼近前沿

為什麼這個結果值得關注?不是因為 Kimi K2.6 在某個奇怪的拼圖遊戲中贏了。

更值得關注的是:Kimi K2.6 是開源模型(open-weights),任何人都可以下載並在本地運行。它來自 2023 年成立的 Moonshot AI。根據 Artificial Analysis Intelligence Index 的評分,Kimi K2.6 得分 54,GPT-5.5 得分 60,Claude 得分 57——雖然還不是完全平等,但差距已經小到可以在實際比賽中顯現出來了。

正如 Rezel 所說:「當距離前沿只有幾個指數點的模型可以免費在本地運行時,這與一年前存在的競爭狀況已經完全不同了。」

這個情境對開發者生態的影響很直接:開源模型的可用性正在縮小「只有頂級閉源模型才能做的事」與「任何人用免費資源都能做的事」之間的差距。

這對台灣開發者和創業者意味著什麼

回到台灣讀者熟悉的場景。過去一年,台灣的 AI 開發社群面臨一個共同的難題:想要使用最先進的模型,就必須依賴 OpenAI、Anthropic、Google 的 API 服務。對於有資料隱私考量(特別是金融、醫療、半導體領域)的團隊來說,這是一個真實的障礙——資料不能外傳、API 成本高昂、依賴單一供應商存在風險。

Kimi K2.6 的表現提供了一個不同的可能性。一個可以在本地部署、無須將敏感資料傳送到雲端的開源模型,在特定任務上能夠與 Claude 和 GPT-5.5 競爭。當然,不是所有任務都一樣——這個比賽測試的是即時決策和實作特定協定的能力,而不是長上下文推理或從規格生成程式碼的能力——但至少在特定領域,開源選項正在變得可行。

另一個值得關注的點是硬體的國產化趨勢。台灣在半導體和硬體供應鏈有深厚的基礎,當開源模型的品質持續提升時,未來可能出現更多「本地晶片 + 開源模型」的組合方案,為企業提供不受海外 API 政策變動影響的 AI 部署選項。

當然,這不是說台灣團隊應該立刻放棄 GPT-5.5 轉用 Kimi K2.6。而是說,在選擇 AI 基礎設施時,開源不再天然是一個劣勢選項。對成本敏感、有資料隱私需求、或者想要更多控制權的團隊,值得花時間實際測試這些開源模型在自家應用場景中的表現。

結尾

一場拼圖比賽中出現的結果,不會在明天就改寫整個 AI 產業的權力地圖。但 Kimi K2.6 的這次勝利提供了一個值得留意的信號:開源與閉源之間的競爭已經從「我們何時能追上」變成了「我們在某些任務上已經能打平」。對於每一個正在規劃 AI 戰略的團隊來說,這意味著未來的選擇不會只是誰的模型最強,而是誰的模型能為你的特定場景提供最好的平衡——能力、成本、控制權、資料安全,這些維度都需要放進考量。而當開源模型持續進步時,天平正在悄悄傾斜。

發布檢查清單