Google 在 2025 年推出了 Gemma 4 系列開源模型,其中 26B(MoE 架構)和 31B(Dense 架構)兩個版本,不只參數量夠大、具備原生 Agent 能力,最關鍵的是——你可以透過 Gemini API 免費呼叫,每天合計 3,000 次,不需要填任何信用卡資訊。
這件事安靜地發生了。沒有大張旗鼓的發布會,沒有部落格長文預告,就靜靜地出現在 Google AI Studio 的 Rate Limit 頁面裡。但對於正在尋找免費、可用、又有一定品質的 AI 模型的人來說,這可能是近期最值得關注的資源之一。
Gemma 4 是什麼?兩個版本差在哪
Gemma 4 是 Google 開源模型系列的最新一代。從第一代 Gemma 到現在,Google 的開源策略一直在調整:最初只是把 Gemini 的「縮小版」拿出來開源,到了 Gemma 3 開始支援更長的上下文,而 Gemma 4 則進一步加入了原生 Agent 能力和更強的推理表現。
這次提供的 26B 和 31B 兩個版本,不只是參數量的差異,底層架構也完全不同:
Gemma 4 26B(MoE 架構)
模型 ID 為 gemma-4-26b-a4b-it。MoE 是 Mixture of Experts 的縮寫,意思是模型內部有多組「專家網路」,在推理時只會啟動最相關的幾組。以 26B MoE 來說,雖然總參數量是 260 億,但實際每次推理可能只用到其中 40 億到 80 億的參數量級,卻能享受到 260 億總參數帶來的知識廣度。
打個比方,MoE 就像一家大型顧問公司,裡面有各種領域的專家。客戶來的時候,櫃台會根據問題類型,只派最相關的幾位專家出面,而不是整家公司的人都出動。這讓它在保持不錯能力的同時,推理速度更快、運算成本更低。
MoE 架構的好處是效率高,缺點是訓練過程更複雜,而且在不同任務上的表現可能不如 Dense 架構穩定——因為每次只有部分專家被啟動,遇到某些特定領域的問題,可能剛好沒啟動最擅長的那組專家。不過 Google 在 Gemma 4 的 MoE 路由機制上做了不少最佳化,實際使用中的不穩定性已經比早期的 MoE 模型改善很多。
Gemma 4 31B(Dense 架構)
模型 ID 為 gemma-4-31b-it。傳統的稠密架構,所有 310 億參數在每次推理時都會被啟動。還是用顧問公司的比喻:這是一間規模稍小但每次客戶來都全員出動的公司。理論上在複雜任務上的表現更穩定、上限更高,因為它每次都用全部的知識來處理你的請求。代價是推理成本更高、速度可能稍慢。
不過透過 API 呼叫時,推理速度主要取決於 Google 伺服器的負載和排隊狀況,使用者在端點的感受差異可能不明顯。建議兩個都實際試試看,用自己的使用場景來判斷哪個更適合。
兩個模型共同的規格:
– 上下文視窗:262,144 tokens(約 26 萬 tokens)
– 輸入支援:文字(text)和圖片(image)
– 推理能力:支援 reasoning 模式
– 原生 Agent 能力:能理解多步驟指令、維護對話狀態、執行工具呼叫
26 萬 tokens 的上下文長度是什麼概念?大約可以一次吞下 20 萬字的中文文本,相當於兩三本小說的量。在免費 API 中幾乎找不到第二家提供這個等級的上下文長度。這意味著你可以把一整份技術文件、一份完整的合約、甚至一本書丟給它,讓它基於全部內容來回答問題,不用擔心前面的內容被截斷忘掉。
免費額度到底有多少?夠用嗎?
根據 Google AI Studio 的 Rate Limit 頁面,兩個模型的免費限制如下:
| 項目 | Gemma 4 26B | Gemma 4 31B |
|---|---|---|
| RPM(每分鐘請求數) | 15 | 15 |
| TPM(每分鐘 token 數) | 無限制 | 無限制 |
| RPD(每日請求數) | 1,500 | 1,500 |
兩個模型加起來每天 3,000 次呼叫。RPM 15 意味著平均每 4 秒可以發一次請求。TPM 無限制是個亮點——很多免費 API 會在每分鐘可處理的 token 數量上設天花板,但 Gemma 4 沒有。這對於長上下文的使用場景(分析長文件、多輪深度對話、大型程式碼庫的 review)非常友善,你不用擔心因為丟了一篇長文章就耗盡配額。
每日 1,500 次(單模型)夠不夠用?如果你是個人使用者,用 AI 助手做日常問答、翻譯、寫作輔助、程式碼除錯,一天 1,500 次幾乎不可能用完。就算是開發者在測試 API 整合、撰寫自動化腳本,1,500 次也足夠完成大部分的除錯和驗證工作。
但如果你打算用來做高頻率的批次處理——例如一次分析幾千封電子郵件、自動分類大量文件——那 RPM 15 的限制就會成為瓶頸。每分鐘只能處理 15 筆,一小時大約 900 筆,要處理上萬筆資料需要超過 11 個小時(而且中間不能停)。這種場景下,免費額度的意義更多是讓你驗證流程是否可行,真正上線還是需要付費方案或本地部署。
取得免費 API Key:完整流程與陷阱
基本流程(沒有綁信用卡的帳號)
- 前往 Google AI Studio
- 用你的 Google 帳號登入
- 進入 API Keys 頁面
- 點擊右上角的「Create API Key」
- 輸入專案名稱(隨便取,能辨識就好,例如「Free Gemma Test」)
- 按「Create Key」完成
整個過程不需要填信用卡,不需要綁定任何付款方式。拿到的 API Key 就是免費層級(Free Tier),用超額度不會被收費,只會進入冷卻期(Cool Down),隔天台北時間凌晨自動恢復額度。這是免費 API 最令人安心的設計——你永遠不會意外收到帳單。
已綁信用卡帳號的陷阱
如果你的 Google 帳號已經綁定了信用卡,而且之前用同一個專案建立過付費的 API Key,那要特別小心。
問題在於:已綁信用卡的專案下建立的 API Key,雖然也有免費額度,但一旦超過免費額度,不會進入冷卻,而是直接開始計費。很多人沒注意到這個差異,以為反正是「免費的」,結果月底收到 Google Cloud 帳單才發現被收了錢。這個雷區在開發者社群中不算少見,尤其是曾經為了使用 Gemini 的圖片生成功能或其他付費功能而綁過信用卡的人。
解法一:建立獨立的免費專案
在建立 API Key 時,不要選擇已綁信用卡的專案,而是點「Create Project」建立一個全新專案。這個新專案不要設定任何付款方式,這樣拿到的 API Key 就是純免費的——用完了只會冷卻,永遠不會扣錢。
具體操作:在 Create API Key 的對話框中,專案名稱輸入一個能區分的名稱(例如「FREE Gemini Project」),然後選擇「Create Project」而不是選擇已有的專案。建立完成後,再點「Create Key」,這組 Key 才是真正不會被扣費的。
最簡單的辨識方式:在 API Keys 列表中,免費的 Key 會顯示「Free tier」,而已綁信用卡的會顯示對應的 Billing Tier 等級。
解法二:用沒綁過信用卡的小帳
如果覺得上面的步驟太麻煩,最直接的做法就是開一個全新的 Google 帳號,從來沒綁過信用卡的那種,直接在上面建立 API Key。預設就是 Free Tier,零風險,不用擔心任何設定疏漏。
串接到 OpenClaw:五分鐘搞定
如果你是 OpenClaw 使用者,可以直接把 Gemma 4 註冊為可用模型。目前 OpenClaw 的 Google provider 模型清單還沒有內建 Gemma 4,需要手動在設定檔中加入。整個過程不複雜。
步驟一:設定 Google provider
進入 OpenClaw 後台,找到 Model 提供商設定,選擇 Google(Gemini API Key),填入你剛取得的 API Key。模型清單中可能還沒有 Gemma 4 的選項,可以先選一個現有的(例如 gemma-3-27b-it),目的是先把 Gemini API 的連線建立好。
步驟二:編輯 openclaw.json
打開 openclaw.json 設定檔(可以在 OpenClaw 後台的配置頁面中找到),在 models 區段中找到 google 的設定區塊,加入以下模型資訊:
"google": {
"baseUrl": "https://generativelanguage.googleapis.com/v1beta",
"api": "google-generative-ai",
"models": [
{
"id": "gemma-4-26b-a4b-it",
"name": "Gemma 4 26B A4B IT (MoE)",
"reasoning": true,
"input": ["text", "image"],
"contextWindow": 262144,
"maxTokens": 131072
},
{
"id": "gemma-4-31b-it",
"name": "Gemma 4 31B IT (Dense)",
"reasoning": true,
"input": ["text", "image"],
"contextWindow": 262144,
"maxTokens": 131072
}
]
}
幾個關鍵欄位的說明:
- id:必須和 Google 的模型名稱完全一致,否則 API 呼叫會報錯。26B 是
gemma-4-26b-a4b-it,31B 是gemma-4-31b-it,注意名稱中的a4b代表 MoE 架構的啟動參數量級,不要漏掉。 - reasoning: true:告訴 OpenClaw 這個模型支援推理模式,啟用後可以處理需要思考鏈的複雜任務。
- input:支援文字和圖片兩種輸入類型,你可以直接丟圖片給它分析。
- contextWindow: 262144:26 萬 tokens 的上下文長度,這是模型的原生規格。
- maxTokens: 131072:單次回應最多 13 萬 tokens,是模型輸出的上限。
步驟三:驗證設定並重啟
儲存設定檔後,在終端機執行:
openclaw config validate
openclaw gateway restart
config validate 會檢查 JSON 格式是否正確——打錯字、多了逗號、少了引號,都會在這裡被揪出來。gateway restart 重新啟動 Gateway 讓新設定生效。
重啟完成後,到 OpenClaw 後台的模型清單重新整理,Gemma 4 26B 和 31B 應該就會出現在選項中。選一個開始對話,確認能正常回應,串接就完成了。
使用中的注意事項
使用過程中,可以隨時回到 Google AI Studio 的 Rate Limit 頁面查看各模型的剩餘用量。如果遇到回應變慢或報錯,先檢查是不是已經觸及了 RPM 或 RPD 的限制。
因為是透過 Google 的 API 服務呼叫,對話內容會經過 Google 的伺服器處理。對於一般使用場景不是問題,但如果你要處理含有敏感資訊的內容(公司內部文件、個人隱私資料、商業機密),就需要評估是否適合透過第三方 API 傳輸。
不只 OpenClaw:其他使用方式
拿到 API Key 之後,除了串接 OpenClaw,還有很多利用方式:
直接在 Google AI Studio 使用:最簡單的選項,不需要任何設定。在 AI Studio 的聊天介面中選擇 Gemma 4 模型,直接開始對話。適合想先試試模型品質、比較兩個版本差異的人。
串接到其他 AI 工具和框架:只要是支援 Gemini API 格式的工具,都可以用這組 Key 來呼叫 Gemma 4。例如各種 AI 程式碼助手(Continue、Cline)、聊天機器人框架、自動化工作流工具(n8n、Dify)等。
自己寫程式呼叫:Google 的 Generative Language API 是標準的 REST 介面,用任何程式語言都可以串接。Python 有官方的 google-generativeai 套件,幾行程式碼就能開始:
import google.generativeai as genai
genai.configure(api_key="你的API_KEY")
model = genai.GenerativeModel("gemma-4-26b-a4b-it")
response = model.generate_content("你好,請用繁體中文介紹一下你自己")
print(response.text)
用於開發測試和原型驗證:如果你正在開發一個 AI 相關的功能,需要一個穩定、免費的模型來做原型驗證(Proof of Concept),Gemma 4 的免費 API 是很好的選擇。不用花錢就能跑完整的功能測試,確認可行後再決定是否升級到付費方案或自建部署。
實際使用場景:誰最適合用
想一下這個免費 API 適合哪些人:
個人開發者和學生:這是最大的受益群體。不需要花錢就能用到 26B、31B 等級的模型,對於學習 AI 應用開發、做 side project、寫論文實驗來說,這是極低的門檻。學生不需要為了跑一個實驗就綁信用卡,開發者不需要為了測試一個功能就先付月費。
AI 助手使用者:如果你已經在使用 OpenClaw 或類似的 AI Agent 平台,多一個免費的高品質模型選項,意味著你可以把付費模型留給需要最高品質的任務(例如複雜的程式碼生成、深度分析),日常的問答、翻譯、摘要這類任務交給免費的 Gemma 4 來處理。長期下來可以顯著降低 API 成本。
內容創作者:26 萬 tokens 的上下文視窗,讓你可以把一整本參考書或一堆背景資料丟給它,然後基於這些內容來生成文章、摘要、改寫。對於需要大量閱讀和整理資料的寫作工作來說,這個上下文長度非常有價值。
小型團隊的 MVP 驗證:新創團隊或小公司在早期階段預算有限,用免費的 Gemma 4 API 來驗證產品概念是否可行,比一開始就投入付費 API 或自建 GPU 伺服器務實得多。確認方向正確後再投入資源,風險更低。
免費的底線:適合什麼場景
Google 願意免費開放 Gemma 4 的 API,背後的商業邏輯不難理解——讓更多開發者接觸和使用 Google 的 AI 生態系,培養使用習慣,進而帶動 Gemini API 和 Google Cloud 的付費轉換。從使用者的角度來看,免費就是免費,在額度範圍內盡量用就對了。
但要理解幾個限制:
沒有 SLA 保證:免費層級不保證服務等級協議,Google 理論上可以調整額度、改變條款,甚至終止服務。如果你打算把它用在不能中斷的正式服務上,就需要準備備案。
資料經過 Google 伺服器:所有透過 API 傳輸的內容都會經過 Google 的基礎設施。Google 的資料使用政策會說明他們如何處理這些資料,但如果你對資料隱私有嚴格要求,就需要另尋方案。
本地部署是替代選項:Gemma 4 既然是開源模型,你也可以自行下載權重做本地部署,完全不需要擔心額度限制和資料隱私。只是 26B 和 31B 的參數量需要一定的硬體資源。以 31B Dense 為例,量化到 4-bit 大約需要 16GB 以上的顯存(或記憶體做 CPU 推理),要順暢運行建議 24GB 以上的 GPU。這也是免費 API 的價值所在——讓沒有高階顯卡的人也能用到這個等級的模型。
Google 把 Gemma 4 放上免費 API,沒有喧嘩,也沒有限制太多。26 萬 tokens 的上下文視窗、原生 Agent 能力、每天 3,000 次免費呼叫——這組合放在一年前,大概是付費方案才有的規格。現在只需要一個 Google 帳號就能拿到。免費的東西不一定好用,好用的東西不一定免費,但偶爾,兩者會碰在一起。至於能碰多久,那就是另一回事了。