Gemini Robotics-ER 1.6：機器人如何真正「看懂」物理世界

一個工廠裡，機器人獨自在走動。它停在複雜的儀表前，不是簡單地拍張照存檔，而是要理解那些指針、液位和刻度的含義。它要判斷壓力是否正常、液位是否在安全範圍內，並在異常時做出反應。這不是科幻電影的橋段，而是現在正在發生的事情。

Google DeepMind 最近發布的 Gemini Robotics-ER 1.6，正在把這種場景變成現實。這款專注於「具身推理」的模型，讓機器人不只是能「看見」環境，更能「理解」環境，進而做出更精確、更安全的決策。

空間推理：不只是數物品

Gemini Robotics-ER 1.6 在空間推理上有顯著提升。最直觀的例子就是「指向」（pointing）能力。

想像一下，一張圖片裡有各種工具：鐵鎚、剪刀、畫筆、鉗子。機器人被要求「指出所有的鉗子」。聽起來很簡單，但實際上需要複雜的理解：機器人要認識什麼是鉗子、分辨不同工具、處理遮擋和重疊，還要判斷哪些該指、哪些不該指。

Gemini Robotics-ER 1.6 在這個任務上表現出色。它能準確識別出：
– 2 把鐵鎚
– 1 把剪刀
– 1 支畫筆
– 6 把鉗子

而且，它不會憑空指出不存在的物品（比如手推車和電鑽），這避免了「幻覺」問題。相比之下，上一代 Gemini Robotics-ER 1.5 就會漏掉剪刀、錯判鐵鎚數量，甚至無中生有地指出不存在的手推車。

指向能力不只是「數東西」那麼簡單。它是機器人理解空間關係的基礎。機器人可以用指向來表達：
– 哪個物件是最小的
– 把 X 物件搬到 Y 位置
– 哪些物件小到可以放進藍色杯子裡

這些看似簡單的空間理解，是機器人執行實際任務的關鍵前提。

多視角理解：從多個角度看問題

在真實世界的機器人應用中，單一視角往往不夠。工廠裡的機器人通常配備多個攝像機：一個在天花板（俯視）、一個在手腕（近距離）。這兩個視角的資訊必須整合起來，機器人才能形成完整的理解。

Gemini Robotics-ER 1.6 在多視角推理上有顯著改進。舉個例子，當機器人執行「把藍色筆放進黑色筆筒」這個任務時，它需要從不同角度判斷任務是否完成：
– 俯視角度可以看到整個場景
– 手腕角度可以近距離確認筆是否確實進入筆筒

機器人要理解這兩個視角之間的關係，知道「上面看到的事實」和「下面看到的事實」如何組合成一個完整的畫面。這在動態或遮擋的環境中尤其重要——比如手臂遮擋了視線、光線不足、物件被其他東西擋住。

DeepMind 展示的案例中，Gemini Robotics-ER 1.6 能夠綜合多個視角的資訊，精確判斷任務是否完成。這種能力是機器人實現高度自主的關鍵。

儀表讀取：工業現場的實際需求

Gemini Robotics-ER 1.6 的一個重要突破是儀表讀取能力。這不是為了炫技，而是來自實際的工業需求。

工業設施中有各種儀表：溫度計、壓力錶、液位計、化學液體視窗等等。這些儀表需要持續監控，以確保設備運行正常、生產安全。人工巡檢費時費力，而且在危險環境中風險很高。

Boston Dynamics 的 Spot 機器狗可以自主走訪各個儀表並拍攝照片，但「拍照片」只是第一步，真正的挑戰是「理解照片」。

儀表讀取需要複雜的視覺推理：
– 精確感知指針位置
– 判斷液位高度
– 理解容器邊界
– 識別刻度標記
– 理解文字描述的單位
– 結合多個指針的讀數（有些儀表有多個指針，分別代表不同的小數位）
– 處理相機視角造成的扭曲（特別是圓形儀表和液位視窗）

Gemini Robotics-ER 1.6 透過一種叫「agentic vision」的技術來解決這個問題。它不是「一眼看出答案」，而是採取逐步推理：
1. 先縮放圖片，拉近看儀表的細節
2. 用指向功能標出關鍵元素（指針、刻度）
3. 用程式執行來估算比例和區間
4. 運用世界知識來解釋含義

這種「逐步推理」的過程，讓機器人能夠達到比簡單模式識別更高的準確度，甚至能夠讀取到刻度之間的精確數值。

安全性：機器人學會識別風險

機器人在物理世界中運作，安全性是重中之重。Gemini Robotics-ER 1.6 在這方面有顯著提升。

首先，模型在遵守 Gemini 安全政策方面的表現比所有前一代都好。這包括遵守「物理安全限制」，例如：
– 不要處理液體
– 不要撿起重於 20kg 的物體

機器人會透過空間輸出（如指向）來表達「這個物件可以安全操作」或「這個物件不應該碰」，這些判斷是基於夾爪類型、材質限制等安全約束。

更重要的是，DeepMind 測試了模型識別安全隱患的能力。他們使用了基於真實受傷報告的文字和視頻場景（Asimov Benchmark v2）。在這些任務中：
– 文字場景的風險識別準確率提升了 6%
– 視頻場景的風險識別準確率提升了 10%

相較於基線的 Gemini 3.0 Flash，Gemini Robotics-ER 1.6 更能準確地識別受傷風險。

這意味著，機器人不只能執行任務，還能在執行過程中主動識別並避免潛在危險。這對於工業環境、家庭服務機器人等實際應用場景來說，至關重要。

為什麼「具身推理」如此重要？

「具身推理」這個詞聽起來很學術，但它的核心思想很簡單：AI 模型需要與物理世界互動，而不只是處理數位資訊。

傳統的語言模型和圖像模型是在「數位世界」中訓練的，它們理解的是文字、圖片、程式碼這類數位表徵。但當機器人要與真實世界互動時，面對的是三維空間、物理法則、重力、摩擦力、不穩定的環境等等。

具身推理模型要能夠：
– 理解「把杯子放在桌子上」意味著什麼（三維空間定位）
– 知道「液體會流動」（物理法則）
– 理解「這個東西太重了，搬不動」（重量和力的概念）
– 處理「視線被遮擋，但我記得東西在那裡」（記憶和推理）

Gemini Robotics-ER 1.6 專注於這些「物理世界的理解能力」，這是機器人從「工具」變成「合作夥伴」的關鍵一步。

實際應用場景

除了前面提到的工廠儀表巡檢，Gemini Robotics-ER 1.6 的能力還可以應用在哪些地方？

倉庫物流：機器人可以精確計算貨物的堆疊方式，判斷哪些貨物可以放在哪裡，避免超載或不穩定。

家庭服務：機器人可以理解「把這些小的水果放進藍色碗裡」這樣的指令，同時知道「大的西瓜放不進去」。

醫療機器人：可以讀取醫療設備的數值，監控病人狀態，同時識別潛在的安全風險。

搜救任務：在複雜的環境中，機器人可以從多個角度整合資訊，理解環境結構，識別危險區域。

如何使用？

Gemini Robotics-ER 1.6 從今天開始就可以使用了：
– Gemini API：開發者可以透過 API 集成模型
– Google AI Studio：可以直接在線上嘗試和測試
– 開發者 Colab：提供範例程式碼和配置指南

DeepMind 也歡迎開發者回饋。如果目前的無法滿足你的特殊應用需求，可以提交 10–50 張標註圖片，說明特定的失敗模式，這將幫助團隊在未來版本中改進。

深層意義：機器人的「理解」邁向新階段

當我們談論「機器人理解世界」時，我們到底在談什麼？

第一階段是「感知」：機器人能看見東西，能識別出「這是杯子」、「這是椅子」。這是基本的物件識別。

第二階段是「執行」：機器人能按照指令執行任務，比如「拿起杯子」、「開門」。這需要精確的運動控制。

第三階段是「推理」：機器人能理解為什麼要做這件事，如何在動態環境中調整策略，如何處理意外情況。這就是 Gemini Robotics-ER 1.6 所代表的層次。

當機器人能夠：
– 從多個視角整合資訊
– 精確讀取複雜儀表
– 主動識別安全風險
– 在遮擋和動態環境中推理

那麼它就從「自動化工具」變成了「智慧夥伴」。

對業界的啟示

這次更新對機器人業界有幾個啟示：

專用模型的價值：Gemini Robotics-ER 1.6 專注於機器人推理，而不是「萬能」模型。專精化能夠在特定領域取得更好的性能。

逐步推理的重要性：透過指向、代碼執行等中間步驟來達成最終答案，比「端到端」的黑盒模型更可靠、更可解釋。

安全性不能事後補救：安全性要從設計之初就融入，而不是作為附加功能。Gemini Robotics-ER 1.6 在各個層級都考慮了安全。

與實際需求對接：儀表讀取功能是與 Boston Dynamics 緊密合作的結果，來自實際的工業需求。技術與應用的緊密連接才能產生真正有價值的產品。

接下來會發生什麼？

從現實的角度看，技術的進步總是伴隨著挑戰。

機器人越來越「聰明」，那麼責任歸屬會如何界定？如果機器人在自主推理過程中做出了錯誤的決策，造成損失，誰該負責？

此外，高階的推理能力需要更多的計算資源。如何在邊緣設備上運行這類模型，平衡性能和成本，是實際部署中必須解決的問題。

對於開發者來說，這意味著更多的機會，也意味著更高的門檻。機器人開發不再只是控制工程，而是需要理解多模態模型、推理系統、安全協議的跨領域技能。

現在可以嘗試了

如果你是開發者，現在就可以去 Google AI Studio 嘗試 Gemini Robotics-ER 1.6。無論你是做機器人研究、工業自動化，還是對具身推理感興趣，這都是一個值得探索的工具。

技術本身不會改變世界，是使用技術的人會改變世界。Gemini Robotics-ER 1.6 是一個強大的工具，但更重要的是，你會用它來解決什麼問題？

參考資料：DeepMind 官方部落格文章《Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning》，發布於 2026 年 4 月 14 日。