一個工廠裡,機器人獨自在走動。它停在複雜的儀表前,不是簡單地拍張照存檔,而是要理解那些指針、液位和刻度的含義。它要判斷壓力是否正常、液位是否在安全範圍內,並在異常時做出反應。這不是科幻電影的橋段,而是現在正在發生的事情。

Google DeepMind 最近發布的 Gemini Robotics-ER 1.6,正在把這種場景變成現實。這款專注於「具身推理」的模型,讓機器人不只是能「看見」環境,更能「理解」環境,進而做出更精確、更安全的決策。

空間推理:不只是數物品

Gemini Robotics-ER 1.6 在空間推理上有顯著提升。最直觀的例子就是「指向」(pointing)能力。

想像一下,一張圖片裡有各種工具:鐵鎚、剪刀、畫筆、鉗子。機器人被要求「指出所有的鉗子」。聽起來很簡單,但實際上需要複雜的理解:機器人要認識什麼是鉗子、分辨不同工具、處理遮擋和重疊,還要判斷哪些該指、哪些不該指。

Gemini Robotics-ER 1.6 在這個任務上表現出色。它能準確識別出:
– 2 把鐵鎚
– 1 把剪刀
– 1 支畫筆
– 6 把鉗子

而且,它不會憑空指出不存在的物品(比如手推車和電鑽),這避免了「幻覺」問題。相比之下,上一代 Gemini Robotics-ER 1.5 就會漏掉剪刀、錯判鐵鎚數量,甚至無中生有地指出不存在的手推車。

指向能力不只是「數東西」那麼簡單。它是機器人理解空間關係的基礎。機器人可以用指向來表達:
– 哪個物件是最小的
– 把 X 物件搬到 Y 位置
– 哪些物件小到可以放進藍色杯子裡

這些看似簡單的空間理解,是機器人執行實際任務的關鍵前提。

多視角理解:從多個角度看問題

在真實世界的機器人應用中,單一視角往往不夠。工廠裡的機器人通常配備多個攝像機:一個在天花板(俯視)、一個在手腕(近距離)。這兩個視角的資訊必須整合起來,機器人才能形成完整的理解。

Gemini Robotics-ER 1.6 在多視角推理上有顯著改進。舉個例子,當機器人執行「把藍色筆放進黑色筆筒」這個任務時,它需要從不同角度判斷任務是否完成:
– 俯視角度可以看到整個場景
– 手腕角度可以近距離確認筆是否確實進入筆筒

機器人要理解這兩個視角之間的關係,知道「上面看到的事實」和「下面看到的事實」如何組合成一個完整的畫面。這在動態或遮擋的環境中尤其重要——比如手臂遮擋了視線、光線不足、物件被其他東西擋住。

DeepMind 展示的案例中,Gemini Robotics-ER 1.6 能夠綜合多個視角的資訊,精確判斷任務是否完成。這種能力是機器人實現高度自主的關鍵。

儀表讀取:工業現場的實際需求

Gemini Robotics-ER 1.6 的一個重要突破是儀表讀取能力。這不是為了炫技,而是來自實際的工業需求。

工業設施中有各種儀表:溫度計、壓力錶、液位計、化學液體視窗等等。這些儀表需要持續監控,以確保設備運行正常、生產安全。人工巡檢費時費力,而且在危險環境中風險很高。

Boston Dynamics 的 Spot 機器狗可以自主走訪各個儀表並拍攝照片,但「拍照片」只是第一步,真正的挑戰是「理解照片」。

儀表讀取需要複雜的視覺推理:
– 精確感知指針位置
– 判斷液位高度
– 理解容器邊界
– 識別刻度標記
– 理解文字描述的單位
– 結合多個指針的讀數(有些儀表有多個指針,分別代表不同的小數位)
– 處理相機視角造成的扭曲(特別是圓形儀表和液位視窗)

Gemini Robotics-ER 1.6 透過一種叫「agentic vision」的技術來解決這個問題。它不是「一眼看出答案」,而是採取逐步推理:
1. 先縮放圖片,拉近看儀表的細節
2. 用指向功能標出關鍵元素(指針、刻度)
3. 用程式執行來估算比例和區間
4. 運用世界知識來解釋含義

這種「逐步推理」的過程,讓機器人能夠達到比簡單模式識別更高的準確度,甚至能夠讀取到刻度之間的精確數值。

安全性:機器人學會識別風險

機器人在物理世界中運作,安全性是重中之重。Gemini Robotics-ER 1.6 在這方面有顯著提升。

首先,模型在遵守 Gemini 安全政策方面的表現比所有前一代都好。這包括遵守「物理安全限制」,例如:
– 不要處理液體
– 不要撿起重於 20kg 的物體

機器人會透過空間輸出(如指向)來表達「這個物件可以安全操作」或「這個物件不應該碰」,這些判斷是基於夾爪類型、材質限制等安全約束。

更重要的是,DeepMind 測試了模型識別安全隱患的能力。他們使用了基於真實受傷報告的文字和視頻場景(Asimov Benchmark v2)。在這些任務中:
– 文字場景的風險識別準確率提升了 6%
– 視頻場景的風險識別準確率提升了 10%

相較於基線的 Gemini 3.0 Flash,Gemini Robotics-ER 1.6 更能準確地識別受傷風險。

這意味著,機器人不只能執行任務,還能在執行過程中主動識別並避免潛在危險。這對於工業環境、家庭服務機器人等實際應用場景來說,至關重要。

為什麼「具身推理」如此重要?

「具身推理」這個詞聽起來很學術,但它的核心思想很簡單:AI 模型需要與物理世界互動,而不只是處理數位資訊。

傳統的語言模型和圖像模型是在「數位世界」中訓練的,它們理解的是文字、圖片、程式碼這類數位表徵。但當機器人要與真實世界互動時,面對的是三維空間、物理法則、重力、摩擦力、不穩定的環境等等。

具身推理模型要能夠:
– 理解「把杯子放在桌子上」意味著什麼(三維空間定位)
– 知道「液體會流動」(物理法則)
– 理解「這個東西太重了,搬不動」(重量和力的概念)
– 處理「視線被遮擋,但我記得東西在那裡」(記憶和推理)

Gemini Robotics-ER 1.6 專注於這些「物理世界的理解能力」,這是機器人從「工具」變成「合作夥伴」的關鍵一步。

實際應用場景

除了前面提到的工廠儀表巡檢,Gemini Robotics-ER 1.6 的能力還可以應用在哪些地方?

倉庫物流:機器人可以精確計算貨物的堆疊方式,判斷哪些貨物可以放在哪裡,避免超載或不穩定。

家庭服務:機器人可以理解「把這些小的水果放進藍色碗裡」這樣的指令,同時知道「大的西瓜放不進去」。

醫療機器人:可以讀取醫療設備的數值,監控病人狀態,同時識別潛在的安全風險。

搜救任務:在複雜的環境中,機器人可以從多個角度整合資訊,理解環境結構,識別危險區域。

如何使用?

Gemini Robotics-ER 1.6 從今天開始就可以使用了:
Gemini API:開發者可以透過 API 集成模型
Google AI Studio:可以直接在線上嘗試和測試
開發者 Colab:提供範例程式碼和配置指南

DeepMind 也歡迎開發者回饋。如果目前的無法滿足你的特殊應用需求,可以提交 10–50 張標註圖片,說明特定的失敗模式,這將幫助團隊在未來版本中改進。

深層意義:機器人的「理解」邁向新階段

當我們談論「機器人理解世界」時,我們到底在談什麼?

第一階段是「感知」:機器人能看見東西,能識別出「這是杯子」、「這是椅子」。這是基本的物件識別。

第二階段是「執行」:機器人能按照指令執行任務,比如「拿起杯子」、「開門」。這需要精確的運動控制。

第三階段是「推理」:機器人能理解為什麼要做這件事,如何在動態環境中調整策略,如何處理意外情況。這就是 Gemini Robotics-ER 1.6 所代表的層次。

當機器人能夠:
– 從多個視角整合資訊
– 精確讀取複雜儀表
– 主動識別安全風險
– 在遮擋和動態環境中推理

那麼它就從「自動化工具」變成了「智慧夥伴」。

對業界的啟示

這次更新對機器人業界有幾個啟示:

專用模型的價值:Gemini Robotics-ER 1.6 專注於機器人推理,而不是「萬能」模型。專精化能夠在特定領域取得更好的性能。

逐步推理的重要性:透過指向、代碼執行等中間步驟來達成最終答案,比「端到端」的黑盒模型更可靠、更可解釋。

安全性不能事後補救:安全性要從設計之初就融入,而不是作為附加功能。Gemini Robotics-ER 1.6 在各個層級都考慮了安全。

與實際需求對接:儀表讀取功能是與 Boston Dynamics 緊密合作的結果,來自實際的工業需求。技術與應用的緊密連接才能產生真正有價值的產品。

接下來會發生什麼?

從現實的角度看,技術的進步總是伴隨著挑戰。

機器人越來越「聰明」,那麼責任歸屬會如何界定?如果機器人在自主推理過程中做出了錯誤的決策,造成損失,誰該負責?

此外,高階的推理能力需要更多的計算資源。如何在邊緣設備上運行這類模型,平衡性能和成本,是實際部署中必須解決的問題。

對於開發者來說,這意味著更多的機會,也意味著更高的門檻。機器人開發不再只是控制工程,而是需要理解多模態模型、推理系統、安全協議的跨領域技能。

現在可以嘗試了

如果你是開發者,現在就可以去 Google AI Studio 嘗試 Gemini Robotics-ER 1.6。無論你是做機器人研究、工業自動化,還是對具身推理感興趣,這都是一個值得探索的工具。

技術本身不會改變世界,是使用技術的人會改變世界。Gemini Robotics-ER 1.6 是一個強大的工具,但更重要的是,你會用它來解決什麼問題?


參考資料:DeepMind 官方部落格文章《Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning》,發布於 2026 年 4 月 14 日。