Google 發表第八代 TPU:雙晶片架構,為代理式 AI 量身打造
Google 在今年的 Cloud Next 大會上,正式公開了第八代 Tensor Processor Unit(TPU),而且一次推出了兩款晶片:TPU 8t 和 TPU 8i。一個專攻訓練,一個專攻推理——這是 Google 十年 TPU 研發以來,第一次針對不同工作負載設計兩個獨立的晶片架構。
這不是一個小更新。從數據上看,這可能是 Google 在 AI 硬體領域最激進的一次升級。
TPU 是什麼?為什麼需要晶片分工?
如果你對 TPU 不太熟悉,簡單來說,它是 Google 為機器學習工作負載量身打造的客製化晶片。和 NVIDIA 的 GPU 不同,TPU 從頭到尾都是為了 AI 運算而生的——沒有多餘的圖形處理功能,每一條電晶體都為神經網路服務。
過去七年,Google 已經推出了七代 TPU,每一代都在效能和效率上有所提升。但到了第八代,Google 做了一個關鍵決定:不再用單一晶片同時處理訓練和推理,而是設計兩款晶片,各自專注在一個領域。
為什麼要這麼做?
原因在於 AI 模型的運算需求正在快速分化。訓練一個像 Gemini 這樣的大型模型,需要的是大量的矩陣運算和記憶體頻寬;但當模型部署上線後,要讓它即時回應使用者的請求——尤其是在代理式 AI(Agentic AI)興起的背景下——對低延遲和吞吐量的要求又完全不同。
用一句話來說:訓練像蓋房子,推理像經營店面。蓋法和營運法是兩回事。
TPU 8t:訓練怪獸,3 倍效能提升
先來看 TPU 8t,這個 t 代表 training。
根據 Google 公布的數據,TPU 8t 的每一個超級運算叢集(superpod)可以擴展到 9,600 顆晶片,共享 2PB 的高頻寬記憶體。整座叢集可以提供 121 ExaFlops 的運算能力——這個數字大到讓人幾乎沒有直覺。
用更具體的方式來理解:前一代 TPU(代號 Ironwood)已經是很強大的訓練晶片了,但 TPU 8t 的每叢集運算效能提升了將近 3 倍。Google 表示,這可以讓前沿模型的開發週期從幾個月縮短到幾週。
晶片間的互連頻寬(interchip bandwidth)是前一代的兩倍。Google 還整合了新的 Virgo Network 技術和 JAX 軟體框架,讓 TPU 8t 在單一邏輯叢集中可以做到近線性擴展——也就是說,當你從 1,000 顆晶片擴充到 100 萬顆時,效能幾乎可以等比成長。這在大規模分散式訓練中是一個極難達成的目標。
此外,TPU 8t 的儲存存取速度比前一代快了 10 倍,透過 TPUDirect 技術,資料可以直接送入 TPU 而不經過 CPU 中轉,最大限度地減少 I/O 瓶頸。
更重要的是「有效運算時間」(goodput)。Google 號稱 TPU 8t 可以達到 97% 以上的 goodput——意思是 97% 的運算時間都真正用在了訓練上,而不是在等待資料、處理故障或重新啟動。
為了做到這點,Google 加入了即時監控系統,可以在數萬顆晶片中自動偵測並繞過故障的互連鏈路,而且不會中斷正在進行的工作。光學電路交換(OCS)技術甚至可以在沒有人工干預的情況下,自動繞過硬體故障重新配置網路。
你可能會覺得這些細節無聊,但對於訓練一個數兆參數模型的公司來說,每 1% 的 goodput 提升,可能就意味著節省好幾天的訓練時間。
TPU 8i:推理引擎,專為代理式 AI 設計
接下來是 TPU 8i,i 代表 inference。
如果說 TPU 8t 是大力士,那 TPU 8i 就是短跑選手。它要解決的問題不一樣:當 AI 模型已經訓練完成、部署上線後,如何讓它用最快的速度回應使用者的請求?
在傳統的 AI 應用中,這個問題已經不容易了。但在代理式 AI 時代,情況變得更加複雜。
代理式 AI 的核心特徵是什麼?是模型需要不斷推理、規劃、執行多步驟任務,並從自己的行動中學習——這是一個連續循環。當大量 AI 代理同時運作、彼此協作時,任何微小的延遲都會被放大。
Google 用了一個詞來形容這種場景:「等待室效應」。想像一下,當數百個 AI 代理同時向同一個推理引擎發送請求時,晶片就像一個塞滿人的大廳,大家都在排隊——這就是傳統 AI 晶片在處理高並發推理時面臨的核心問題。
TPU 8i 從四個方面解決這個問題:
第一,記憶體牆。為了不讓晶片因為等待資料而閒置,TPU 8i 配備了 288GB 的高頻寬記憶體和 384MB 的晶片上 SRAM——是前一代的 3 倍。這意味著模型的主要工作集可以完全放在晶片上,不需要頻繁從外部記憶體讀取資料。
第二,改用 Google 自研的 Axion Arm 架構 CPU 作為主機處理器,並採用非一致性記憶體架構(NUMA)來隔離工作負載,提升整體系統效能。
第三,針對現代的混合專家(MoE)模型,TPU 8i 把晶片互連頻寬翻倍到 19.2 Tb/s。新的 Boardfly 架構將最大網路直徑縮小 50% 以上,讓整套系統像一個低延遲的整體在運作。
第四,全新的晶片上 Collective Acceleration Engine(CAE)可以卸載全局運算操作,將晶片內延遲降低最多 5 倍。
這些改進的結果是什麼?Google 表示,TPU 8i 的性價比(performance-per-dollar)比前一代提升了 80%——也就是說,同樣的預算可以服務將近兩倍的使用者數量。
一顆晶片、十年設計
Google 的 TPU 發展史其實很有意思。
2016 年,Google 發表第一代 TPU 時,很多人還在問「Google 做晶片幹嘛?」當時 TPU 的主要工作是加速 Google 搜尋的語音辨識——一個非常狹窄的用途。但 Google 從一開始就想得很清楚:如果 AI 會成為運算的核心,那就必須有專屬的硬體來跑它。
十年過去,這個判斷被證明是對的。TPU 不僅是 Google 自家服務(搜尋、翻譯、YouTube、Gemini)的核心基礎設施,也已經對外開放給企業客戶使用。NVIDIA 的 GPU 仍然是市場主導者,但 TPU 在特定場景下的性價比優勢越來越明顯。
這次第八代 TPU 的另一個關鍵變化是:兩款晶片首次全部運行在 Google 自研的 Axion ARM 架構 CPU 上。這意味著 Google 現在可以從主機處理器到加速器,整個硬體堆疊都由自己掌控。這和 Apple 的「全棧自研」策略非常相似——當你能夠自己設計所有硬體元件時,系統層級的優化空間遠比只用現成元件來得大。
對於開發者來說,好消息是 TPU 8t 和 TPU 8i 都支援主流的 AI 框架,包括 JAX、PyTorch、SGLang 和 vLLM。Google 也提供了 MaxText 參考實作和用於強化學習的 Tunix 工具,讓從開發到部署的過程更加順暢。
從資料中心到晶片:全棧效率的追求
在今天的 AI 資料中心中,最稀缺的資源不是晶片本身,而是電力。
這是一個很容易被忽略的事實。當大家都在關注 GPU 的規格和價格時,真正限制 AI 規模化的因素是電費和散熱能力。
Google 很清楚這一點。TPU 8t 和 TPU 8i 的每瓦效能(performance-per-watt)比前一代 Ironwood 提升了 2 倍。但 Google 的節能策略不只是在晶片層級——他們在整個系統層級都在優化效率。
舉例來說,Google 把網路連線功能直接整合到 TPU 晶片上,大幅降低了資料在叢集中傳輸的電力消耗。資料中心本身也是和 TPU 協同設計的——Google 表示,過去五年,他們的資料中心每單位電力的運算能力提升了 6 倍。
散熱方面,TPU 8t 和 TPU 8i 都支援第四代液體冷卻技術。當晶片功耗持續攀升時,傳統的空氣冷卻已經無法應付,液冷成為必須。Google 在這方面已經累積了多年的實戰經驗。
這套「從晶片到資料中心」的全棧效率策略,讓 Google 的 AI 基礎設施在總體擁有成本(TCO)上擁有了一個不太容易被看到的競爭優勢——不是單看晶片價格,而是看跑完一個 AI 工作負載總共要花多少錢。
這對台灣的開發者和企業意味著什麼?
雖然第八代 TPU 尚未正式上市(預計今年稍晚才會開放),但它的技術方向已經透露了一些重要的信號。
首先,代理式 AI 正在從概念走向基礎設施層面。Google 在晶片設計階段的假設就是「AI 代理會大規模部署」,這代表市面上很快就會有更多專為 AI Agent 優化的雲端服務出現。對於正在評估導入 AI Agent 的台灣企業來說,硬體基礎設施的成熟度正在快速提升。
其次,晶片分工的趨勢越來越明顯。過去,GPU 同時處理訓練和推理;現在,Google、NVIDIA(H100 和 H200 系列已經開始明確區分用途)都在往專用化方向走。這意味著,未來選擇 AI 雲端服務時,不再只是看「用什麼 GPU」,而是要問清楚「這顆晶片是做訓練還是推理的、適合什麼類型的工作負載」。
第三,Google TPU 對 JAX 和 PyTorch 的原生支援,意味著台灣的 AI 研究團隊和開發者不需要學習新的框架就能使用。這降低了導入門檻——如果你的模型已經用 JAX 或 PyTorch 寫好了,Google Cloud 的 TPU 服務理論上可以直接跑。
對於正在選擇 AI 雲端服務的台灣團隊來說,Google TPU 的這個升級讓它成為一個更值得認真比較的選項。特別是在 NVIDIA GPU 供貨依然緊張、價格持續高漲的背景下,TPU 的性價比優勢(TPU 8i 比前一代提升 80%)變得更加有吸引力。
結語
這不只是 Google 發表了新的晶片那麼簡單。這是整個 AI 基礎設施從通用走向專用、從單一走向分工的縮影。當 Google 決定為代理式 AI 設計專屬的推理晶片時,它傳遞了一個明確的信號:AI 代理不僅是下一個應用浪潮,更會推動整個硬體生態系統的重新設計。
對台灣開發者和企業來說,或許不需要現在就去下單 TPU 8i——這顆晶片連上市日期都還沒確定。但值得關注的是,基礎設施層級的競爭正在加速。你選擇哪朵雲、用哪種晶片,在未來一兩年內的差異可能會比過去更大。保持對硬體趨勢的敏感度,可能比追蹤最新的 AI 模型發布來得更實際。