Google 在 2025 年推出了 Gemma 4 系列開源模型,其中 26B(MoE 架構)和 31B(Dense 架構)兩個版本,不只參數量夠大、具備原生 Agent 能力,最關鍵的是——你可以透過 Gemini API 免費呼叫,每天合計 3,000 次,不需要填任何信用卡資訊。

這件事安靜地發生了。沒有大張旗鼓的發布會,沒有部落格長文預告,就靜靜地出現在 Google AI Studio 的 Rate Limit 頁面裡。但對於正在尋找免費、可用、又有一定品質的 AI 模型的人來說,這可能是近期最值得關注的資源之一。

Gemma 4 是什麼?兩個版本差在哪

Gemma 4 是 Google 開源模型系列的最新一代。從第一代 Gemma 到現在,Google 的開源策略一直在調整:最初只是把 Gemini 的「縮小版」拿出來開源,到了 Gemma 3 開始支援更長的上下文,而 Gemma 4 則進一步加入了原生 Agent 能力和更強的推理表現。

這次提供的 26B 和 31B 兩個版本,不只是參數量的差異,底層架構也完全不同:

Gemma 4 26B(MoE 架構)
模型 ID 為 gemma-4-26b-a4b-it。MoE 是 Mixture of Experts 的縮寫,意思是模型內部有多組「專家網路」,在推理時只會啟動最相關的幾組。以 26B MoE 來說,雖然總參數量是 260 億,但實際每次推理可能只用到其中 40 億到 80 億的參數量級,卻能享受到 260 億總參數帶來的知識廣度。

打個比方,MoE 就像一家大型顧問公司,裡面有各種領域的專家。客戶來的時候,櫃台會根據問題類型,只派最相關的幾位專家出面,而不是整家公司的人都出動。這讓它在保持不錯能力的同時,推理速度更快、運算成本更低。

MoE 架構的好處是效率高,缺點是訓練過程更複雜,而且在不同任務上的表現可能不如 Dense 架構穩定——因為每次只有部分專家被啟動,遇到某些特定領域的問題,可能剛好沒啟動最擅長的那組專家。不過 Google 在 Gemma 4 的 MoE 路由機制上做了不少最佳化,實際使用中的不穩定性已經比早期的 MoE 模型改善很多。

Gemma 4 31B(Dense 架構)
模型 ID 為 gemma-4-31b-it。傳統的稠密架構,所有 310 億參數在每次推理時都會被啟動。還是用顧問公司的比喻:這是一間規模稍小但每次客戶來都全員出動的公司。理論上在複雜任務上的表現更穩定、上限更高,因為它每次都用全部的知識來處理你的請求。代價是推理成本更高、速度可能稍慢。

不過透過 API 呼叫時,推理速度主要取決於 Google 伺服器的負載和排隊狀況,使用者在端點的感受差異可能不明顯。建議兩個都實際試試看,用自己的使用場景來判斷哪個更適合。

兩個模型共同的規格:
上下文視窗:262,144 tokens(約 26 萬 tokens)
輸入支援:文字(text)和圖片(image)
推理能力:支援 reasoning 模式
原生 Agent 能力:能理解多步驟指令、維護對話狀態、執行工具呼叫

26 萬 tokens 的上下文長度是什麼概念?大約可以一次吞下 20 萬字的中文文本,相當於兩三本小說的量。在免費 API 中幾乎找不到第二家提供這個等級的上下文長度。這意味著你可以把一整份技術文件、一份完整的合約、甚至一本書丟給它,讓它基於全部內容來回答問題,不用擔心前面的內容被截斷忘掉。

免費額度到底有多少?夠用嗎?

根據 Google AI Studio 的 Rate Limit 頁面,兩個模型的免費限制如下:

項目 Gemma 4 26B Gemma 4 31B
RPM(每分鐘請求數) 15 15
TPM(每分鐘 token 數) 無限制 無限制
RPD(每日請求數) 1,500 1,500

兩個模型加起來每天 3,000 次呼叫。RPM 15 意味著平均每 4 秒可以發一次請求。TPM 無限制是個亮點——很多免費 API 會在每分鐘可處理的 token 數量上設天花板,但 Gemma 4 沒有。這對於長上下文的使用場景(分析長文件、多輪深度對話、大型程式碼庫的 review)非常友善,你不用擔心因為丟了一篇長文章就耗盡配額。

每日 1,500 次(單模型)夠不夠用?如果你是個人使用者,用 AI 助手做日常問答、翻譯、寫作輔助、程式碼除錯,一天 1,500 次幾乎不可能用完。就算是開發者在測試 API 整合、撰寫自動化腳本,1,500 次也足夠完成大部分的除錯和驗證工作。

但如果你打算用來做高頻率的批次處理——例如一次分析幾千封電子郵件、自動分類大量文件——那 RPM 15 的限制就會成為瓶頸。每分鐘只能處理 15 筆,一小時大約 900 筆,要處理上萬筆資料需要超過 11 個小時(而且中間不能停)。這種場景下,免費額度的意義更多是讓你驗證流程是否可行,真正上線還是需要付費方案或本地部署。

取得免費 API Key:完整流程與陷阱

基本流程(沒有綁信用卡的帳號)

  1. 前往 Google AI Studio
  2. 用你的 Google 帳號登入
  3. 進入 API Keys 頁面
  4. 點擊右上角的「Create API Key」
  5. 輸入專案名稱(隨便取,能辨識就好,例如「Free Gemma Test」)
  6. 按「Create Key」完成

整個過程不需要填信用卡,不需要綁定任何付款方式。拿到的 API Key 就是免費層級(Free Tier),用超額度不會被收費,只會進入冷卻期(Cool Down),隔天台北時間凌晨自動恢復額度。這是免費 API 最令人安心的設計——你永遠不會意外收到帳單。

已綁信用卡帳號的陷阱

如果你的 Google 帳號已經綁定了信用卡,而且之前用同一個專案建立過付費的 API Key,那要特別小心。

問題在於:已綁信用卡的專案下建立的 API Key,雖然也有免費額度,但一旦超過免費額度,不會進入冷卻,而是直接開始計費。很多人沒注意到這個差異,以為反正是「免費的」,結果月底收到 Google Cloud 帳單才發現被收了錢。這個雷區在開發者社群中不算少見,尤其是曾經為了使用 Gemini 的圖片生成功能或其他付費功能而綁過信用卡的人。

解法一:建立獨立的免費專案

在建立 API Key 時,不要選擇已綁信用卡的專案,而是點「Create Project」建立一個全新專案。這個新專案不要設定任何付款方式,這樣拿到的 API Key 就是純免費的——用完了只會冷卻,永遠不會扣錢。

具體操作:在 Create API Key 的對話框中,專案名稱輸入一個能區分的名稱(例如「FREE Gemini Project」),然後選擇「Create Project」而不是選擇已有的專案。建立完成後,再點「Create Key」,這組 Key 才是真正不會被扣費的。

最簡單的辨識方式:在 API Keys 列表中,免費的 Key 會顯示「Free tier」,而已綁信用卡的會顯示對應的 Billing Tier 等級。

解法二:用沒綁過信用卡的小帳

如果覺得上面的步驟太麻煩,最直接的做法就是開一個全新的 Google 帳號,從來沒綁過信用卡的那種,直接在上面建立 API Key。預設就是 Free Tier,零風險,不用擔心任何設定疏漏。

串接到 OpenClaw:五分鐘搞定

如果你是 OpenClaw 使用者,可以直接把 Gemma 4 註冊為可用模型。目前 OpenClaw 的 Google provider 模型清單還沒有內建 Gemma 4,需要手動在設定檔中加入。整個過程不複雜。

步驟一:設定 Google provider

進入 OpenClaw 後台,找到 Model 提供商設定,選擇 Google(Gemini API Key),填入你剛取得的 API Key。模型清單中可能還沒有 Gemma 4 的選項,可以先選一個現有的(例如 gemma-3-27b-it),目的是先把 Gemini API 的連線建立好。

步驟二:編輯 openclaw.json

打開 openclaw.json 設定檔(可以在 OpenClaw 後台的配置頁面中找到),在 models 區段中找到 google 的設定區塊,加入以下模型資訊:

"google": {
  "baseUrl": "https://generativelanguage.googleapis.com/v1beta",
  "api": "google-generative-ai",
  "models": [
    {
      "id": "gemma-4-26b-a4b-it",
      "name": "Gemma 4 26B A4B IT (MoE)",
      "reasoning": true,
      "input": ["text", "image"],
      "contextWindow": 262144,
      "maxTokens": 131072
    },
    {
      "id": "gemma-4-31b-it",
      "name": "Gemma 4 31B IT (Dense)",
      "reasoning": true,
      "input": ["text", "image"],
      "contextWindow": 262144,
      "maxTokens": 131072
    }
  ]
}

幾個關鍵欄位的說明:

步驟三:驗證設定並重啟

儲存設定檔後,在終端機執行:

openclaw config validate
openclaw gateway restart

config validate 會檢查 JSON 格式是否正確——打錯字、多了逗號、少了引號,都會在這裡被揪出來。gateway restart 重新啟動 Gateway 讓新設定生效。

重啟完成後,到 OpenClaw 後台的模型清單重新整理,Gemma 4 26B 和 31B 應該就會出現在選項中。選一個開始對話,確認能正常回應,串接就完成了。

使用中的注意事項

使用過程中,可以隨時回到 Google AI Studio 的 Rate Limit 頁面查看各模型的剩餘用量。如果遇到回應變慢或報錯,先檢查是不是已經觸及了 RPM 或 RPD 的限制。

因為是透過 Google 的 API 服務呼叫,對話內容會經過 Google 的伺服器處理。對於一般使用場景不是問題,但如果你要處理含有敏感資訊的內容(公司內部文件、個人隱私資料、商業機密),就需要評估是否適合透過第三方 API 傳輸。

不只 OpenClaw:其他使用方式

拿到 API Key 之後,除了串接 OpenClaw,還有很多利用方式:

直接在 Google AI Studio 使用:最簡單的選項,不需要任何設定。在 AI Studio 的聊天介面中選擇 Gemma 4 模型,直接開始對話。適合想先試試模型品質、比較兩個版本差異的人。

串接到其他 AI 工具和框架:只要是支援 Gemini API 格式的工具,都可以用這組 Key 來呼叫 Gemma 4。例如各種 AI 程式碼助手(Continue、Cline)、聊天機器人框架、自動化工作流工具(n8n、Dify)等。

自己寫程式呼叫:Google 的 Generative Language API 是標準的 REST 介面,用任何程式語言都可以串接。Python 有官方的 google-generativeai 套件,幾行程式碼就能開始:

import google.generativeai as genai

genai.configure(api_key="你的API_KEY")
model = genai.GenerativeModel("gemma-4-26b-a4b-it")
response = model.generate_content("你好,請用繁體中文介紹一下你自己")
print(response.text)

用於開發測試和原型驗證:如果你正在開發一個 AI 相關的功能,需要一個穩定、免費的模型來做原型驗證(Proof of Concept),Gemma 4 的免費 API 是很好的選擇。不用花錢就能跑完整的功能測試,確認可行後再決定是否升級到付費方案或自建部署。

實際使用場景:誰最適合用

想一下這個免費 API 適合哪些人:

個人開發者和學生:這是最大的受益群體。不需要花錢就能用到 26B、31B 等級的模型,對於學習 AI 應用開發、做 side project、寫論文實驗來說,這是極低的門檻。學生不需要為了跑一個實驗就綁信用卡,開發者不需要為了測試一個功能就先付月費。

AI 助手使用者:如果你已經在使用 OpenClaw 或類似的 AI Agent 平台,多一個免費的高品質模型選項,意味著你可以把付費模型留給需要最高品質的任務(例如複雜的程式碼生成、深度分析),日常的問答、翻譯、摘要這類任務交給免費的 Gemma 4 來處理。長期下來可以顯著降低 API 成本。

內容創作者:26 萬 tokens 的上下文視窗,讓你可以把一整本參考書或一堆背景資料丟給它,然後基於這些內容來生成文章、摘要、改寫。對於需要大量閱讀和整理資料的寫作工作來說,這個上下文長度非常有價值。

小型團隊的 MVP 驗證:新創團隊或小公司在早期階段預算有限,用免費的 Gemma 4 API 來驗證產品概念是否可行,比一開始就投入付費 API 或自建 GPU 伺服器務實得多。確認方向正確後再投入資源,風險更低。

免費的底線:適合什麼場景

Google 願意免費開放 Gemma 4 的 API,背後的商業邏輯不難理解——讓更多開發者接觸和使用 Google 的 AI 生態系,培養使用習慣,進而帶動 Gemini API 和 Google Cloud 的付費轉換。從使用者的角度來看,免費就是免費,在額度範圍內盡量用就對了。

但要理解幾個限制:

沒有 SLA 保證:免費層級不保證服務等級協議,Google 理論上可以調整額度、改變條款,甚至終止服務。如果你打算把它用在不能中斷的正式服務上,就需要準備備案。

資料經過 Google 伺服器:所有透過 API 傳輸的內容都會經過 Google 的基礎設施。Google 的資料使用政策會說明他們如何處理這些資料,但如果你對資料隱私有嚴格要求,就需要另尋方案。

本地部署是替代選項:Gemma 4 既然是開源模型,你也可以自行下載權重做本地部署,完全不需要擔心額度限制和資料隱私。只是 26B 和 31B 的參數量需要一定的硬體資源。以 31B Dense 為例,量化到 4-bit 大約需要 16GB 以上的顯存(或記憶體做 CPU 推理),要順暢運行建議 24GB 以上的 GPU。這也是免費 API 的價值所在——讓沒有高階顯卡的人也能用到這個等級的模型。


Google 把 Gemma 4 放上免費 API,沒有喧嘩,也沒有限制太多。26 萬 tokens 的上下文視窗、原生 Agent 能力、每天 3,000 次免費呼叫——這組合放在一年前,大概是付費方案才有的規格。現在只需要一個 Google 帳號就能拿到。免費的東西不一定好用,好用的東西不一定免費,但偶爾,兩者會碰在一起。至於能碰多久,那就是另一回事了。