Google 發表第八代 TPU：雙晶片架構，為代理式 AI 量身打造

Google 在今年的 Cloud Next 大會上，正式公開了第八代 Tensor Processor Unit（TPU），而且一次推出了兩款晶片：TPU 8t 和 TPU 8i。一個專攻訓練，一個專攻推理——這是 Google 十年 TPU 研發以來，第一次針對不同工作負載設計兩個獨立的晶片架構。

這不是一個小更新。從數據上看，這可能是 Google 在 AI 硬體領域最激進的一次升級。

TPU 是什麼？為什麼需要晶片分工？

如果你對 TPU 不太熟悉，簡單來說，它是 Google 為機器學習工作負載量身打造的客製化晶片。和 NVIDIA 的 GPU 不同，TPU 從頭到尾都是為了 AI 運算而生的——沒有多餘的圖形處理功能，每一條電晶體都為神經網路服務。

過去七年，Google 已經推出了七代 TPU，每一代都在效能和效率上有所提升。但到了第八代，Google 做了一個關鍵決定：不再用單一晶片同時處理訓練和推理，而是設計兩款晶片，各自專注在一個領域。

為什麼要這麼做？

原因在於 AI 模型的運算需求正在快速分化。訓練一個像 Gemini 這樣的大型模型，需要的是大量的矩陣運算和記憶體頻寬；但當模型部署上線後，要讓它即時回應使用者的請求——尤其是在代理式 AI（Agentic AI）興起的背景下——對低延遲和吞吐量的要求又完全不同。

用一句話來說：訓練像蓋房子，推理像經營店面。蓋法和營運法是兩回事。

TPU 8t：訓練怪獸，3 倍效能提升

先來看 TPU 8t，這個 t 代表 training。

根據 Google 公布的數據，TPU 8t 的每一個超級運算叢集（superpod）可以擴展到 9,600 顆晶片，共享 2PB 的高頻寬記憶體。整座叢集可以提供 121 ExaFlops 的運算能力——這個數字大到讓人幾乎沒有直覺。

用更具體的方式來理解：前一代 TPU（代號 Ironwood）已經是很強大的訓練晶片了，但 TPU 8t 的每叢集運算效能提升了將近 3 倍。Google 表示，這可以讓前沿模型的開發週期從幾個月縮短到幾週。

晶片間的互連頻寬（interchip bandwidth）是前一代的兩倍。Google 還整合了新的 Virgo Network 技術和 JAX 軟體框架，讓 TPU 8t 在單一邏輯叢集中可以做到近線性擴展——也就是說，當你從 1,000 顆晶片擴充到 100 萬顆時，效能幾乎可以等比成長。這在大規模分散式訓練中是一個極難達成的目標。

此外，TPU 8t 的儲存存取速度比前一代快了 10 倍，透過 TPUDirect 技術，資料可以直接送入 TPU 而不經過 CPU 中轉，最大限度地減少 I/O 瓶頸。

更重要的是「有效運算時間」（goodput）。Google 號稱 TPU 8t 可以達到 97% 以上的 goodput——意思是 97% 的運算時間都真正用在了訓練上，而不是在等待資料、處理故障或重新啟動。

為了做到這點，Google 加入了即時監控系統，可以在數萬顆晶片中自動偵測並繞過故障的互連鏈路，而且不會中斷正在進行的工作。光學電路交換（OCS）技術甚至可以在沒有人工干預的情況下，自動繞過硬體故障重新配置網路。

你可能會覺得這些細節無聊，但對於訓練一個數兆參數模型的公司來說，每 1% 的 goodput 提升，可能就意味著節省好幾天的訓練時間。

TPU 8i：推理引擎，專為代理式 AI 設計

接下來是 TPU 8i，i 代表 inference。

如果說 TPU 8t 是大力士，那 TPU 8i 就是短跑選手。它要解決的問題不一樣：當 AI 模型已經訓練完成、部署上線後，如何讓它用最快的速度回應使用者的請求？

在傳統的 AI 應用中，這個問題已經不容易了。但在代理式 AI 時代，情況變得更加複雜。

代理式 AI 的核心特徵是什麼？是模型需要不斷推理、規劃、執行多步驟任務，並從自己的行動中學習——這是一個連續循環。當大量 AI 代理同時運作、彼此協作時，任何微小的延遲都會被放大。

Google 用了一個詞來形容這種場景：「等待室效應」。想像一下，當數百個 AI 代理同時向同一個推理引擎發送請求時，晶片就像一個塞滿人的大廳，大家都在排隊——這就是傳統 AI 晶片在處理高並發推理時面臨的核心問題。

TPU 8i 從四個方面解決這個問題：

第一，記憶體牆。為了不讓晶片因為等待資料而閒置，TPU 8i 配備了 288GB 的高頻寬記憶體和 384MB 的晶片上 SRAM——是前一代的 3 倍。這意味著模型的主要工作集可以完全放在晶片上，不需要頻繁從外部記憶體讀取資料。

第二，改用 Google 自研的 Axion Arm 架構 CPU 作為主機處理器，並採用非一致性記憶體架構（NUMA）來隔離工作負載，提升整體系統效能。

第三，針對現代的混合專家（MoE）模型，TPU 8i 把晶片互連頻寬翻倍到 19.2 Tb/s。新的 Boardfly 架構將最大網路直徑縮小 50% 以上，讓整套系統像一個低延遲的整體在運作。

第四，全新的晶片上 Collective Acceleration Engine（CAE）可以卸載全局運算操作，將晶片內延遲降低最多 5 倍。

這些改進的結果是什麼？Google 表示，TPU 8i 的性價比（performance-per-dollar）比前一代提升了 80%——也就是說，同樣的預算可以服務將近兩倍的使用者數量。

一顆晶片、十年設計

Google 的 TPU 發展史其實很有意思。

2016 年，Google 發表第一代 TPU 時，很多人還在問「Google 做晶片幹嘛？」當時 TPU 的主要工作是加速 Google 搜尋的語音辨識——一個非常狹窄的用途。但 Google 從一開始就想得很清楚：如果 AI 會成為運算的核心，那就必須有專屬的硬體來跑它。

十年過去，這個判斷被證明是對的。TPU 不僅是 Google 自家服務（搜尋、翻譯、YouTube、Gemini）的核心基礎設施，也已經對外開放給企業客戶使用。NVIDIA 的 GPU 仍然是市場主導者，但 TPU 在特定場景下的性價比優勢越來越明顯。

這次第八代 TPU 的另一個關鍵變化是：兩款晶片首次全部運行在 Google 自研的 Axion ARM 架構 CPU 上。這意味著 Google 現在可以從主機處理器到加速器，整個硬體堆疊都由自己掌控。這和 Apple 的「全棧自研」策略非常相似——當你能夠自己設計所有硬體元件時，系統層級的優化空間遠比只用現成元件來得大。

對於開發者來說，好消息是 TPU 8t 和 TPU 8i 都支援主流的 AI 框架，包括 JAX、PyTorch、SGLang 和 vLLM。Google 也提供了 MaxText 參考實作和用於強化學習的 Tunix 工具，讓從開發到部署的過程更加順暢。

從資料中心到晶片：全棧效率的追求

在今天的 AI 資料中心中，最稀缺的資源不是晶片本身，而是電力。

這是一個很容易被忽略的事實。當大家都在關注 GPU 的規格和價格時，真正限制 AI 規模化的因素是電費和散熱能力。

Google 很清楚這一點。TPU 8t 和 TPU 8i 的每瓦效能（performance-per-watt）比前一代 Ironwood 提升了 2 倍。但 Google 的節能策略不只是在晶片層級——他們在整個系統層級都在優化效率。

舉例來說，Google 把網路連線功能直接整合到 TPU 晶片上，大幅降低了資料在叢集中傳輸的電力消耗。資料中心本身也是和 TPU 協同設計的——Google 表示，過去五年，他們的資料中心每單位電力的運算能力提升了 6 倍。

散熱方面，TPU 8t 和 TPU 8i 都支援第四代液體冷卻技術。當晶片功耗持續攀升時，傳統的空氣冷卻已經無法應付，液冷成為必須。Google 在這方面已經累積了多年的實戰經驗。

這套「從晶片到資料中心」的全棧效率策略，讓 Google 的 AI 基礎設施在總體擁有成本（TCO）上擁有了一個不太容易被看到的競爭優勢——不是單看晶片價格，而是看跑完一個 AI 工作負載總共要花多少錢。

這對台灣的開發者和企業意味著什麼？

雖然第八代 TPU 尚未正式上市（預計今年稍晚才會開放），但它的技術方向已經透露了一些重要的信號。

首先，代理式 AI 正在從概念走向基礎設施層面。Google 在晶片設計階段的假設就是「AI 代理會大規模部署」，這代表市面上很快就會有更多專為 AI Agent 優化的雲端服務出現。對於正在評估導入 AI Agent 的台灣企業來說，硬體基礎設施的成熟度正在快速提升。

其次，晶片分工的趨勢越來越明顯。過去，GPU 同時處理訓練和推理；現在，Google、NVIDIA（H100 和 H200 系列已經開始明確區分用途）都在往專用化方向走。這意味著，未來選擇 AI 雲端服務時，不再只是看「用什麼 GPU」，而是要問清楚「這顆晶片是做訓練還是推理的、適合什麼類型的工作負載」。

第三，Google TPU 對 JAX 和 PyTorch 的原生支援，意味著台灣的 AI 研究團隊和開發者不需要學習新的框架就能使用。這降低了導入門檻——如果你的模型已經用 JAX 或 PyTorch 寫好了，Google Cloud 的 TPU 服務理論上可以直接跑。

對於正在選擇 AI 雲端服務的台灣團隊來說，Google TPU 的這個升級讓它成為一個更值得認真比較的選項。特別是在 NVIDIA GPU 供貨依然緊張、價格持續高漲的背景下，TPU 的性價比優勢（TPU 8i 比前一代提升 80%）變得更加有吸引力。

結語

這不只是 Google 發表了新的晶片那麼簡單。這是整個 AI 基礎設施從通用走向專用、從單一走向分工的縮影。當 Google 決定為代理式 AI 設計專屬的推理晶片時，它傳遞了一個明確的信號：AI 代理不僅是下一個應用浪潮，更會推動整個硬體生態系統的重新設計。

對台灣開發者和企業來說，或許不需要現在就去下單 TPU 8i——這顆晶片連上市日期都還沒確定。但值得關注的是，基礎設施層級的競爭正在加速。你選擇哪朵雲、用哪種晶片，在未來一兩年內的差異可能會比過去更大。保持對硬體趨勢的敏感度，可能比追蹤最新的 AI 模型發布來得更實際。