標題:當機器人有了「那雙手」:Eka 的靈巧爪,正在逼近屬於實體世界的 ChatGPT 時刻

「小心,它要捏碎燈泡了。」我忍不住在心裡默念。眼前的機器爪正高速朝桌面上一顆燈泡俯衝,想像中的碎裂聲已經在我腦中響起。

但就在最後一刻,那隻爪子突然減速了。它開始在桌面上輕柔地摸索,像是在床頭櫃上找眼鏡的手——笨拙、試探、卻帶著某種令人意外的精準。它用兩根鉗指小心翼翼地夾住燈泡,燈泡滾開了,它追過去重新定位,像貓咪追著紙團那樣執著。幾次嘗試後,燈泡終於被穩穩夾住,接著機器流暢地將它旋入燈座,照亮了整個工作區。

這段場景不是在科幻電影裡,而是發生在麻州劍橋市 Kendall Square 的一間新創辦公室——樓下就是 WIRED 記者常去吃飯的 Shy Bird 餐廳。這家新創的名字叫 Eka,而它的機器人,讓見證過十多年機器人發展的 WIRED 記者說出了一句話:

「我報導機器人十多年了,從來沒見過一台能動得這麼自然的。」

那雙「笨手」,一直是機器人界的羞恥

如果你對機器人的印象還停留在工廠流水線上那些精準到令人咋舌的焊接臂,那你可能忽略了另一個殘酷的事實:那些手臂只會做重複的事。一旦遇到沒見過的物件、不確定的角度、一個輕柔的觸碰,它們就變成了鐵塊。

這種現象在機器人學中有個專有名詞——Moravec 悖論。1980 年代末,奧地利電腦科學家 Hans Moravec 提出了一個反直覺的觀察:對電腦來說,下棋或解數學題輕而易舉;但對人類小孩來說,抓一個滾動的球、把鑰匙插進鑰匙孔這種「直覺動作」,對機器卻是地獄級的難題。

原因在於:實體互動的能力在人類演化中已經打磨了幾百萬年,已經內化到我們無法察覺的程度。而「高層次推理」反而是人類文明比較晚近才發展出來的能力,機器反而更容易模仿。

這就解釋了為什麼 OpenAI 在 2018 年發表 Dactyl 機器手時,聲稱它「接近人類等級的靈巧度」——但其實這隻手只能在完美條件下轉魔術方塊,一旦方塊開始滑掉,它完全不知道怎麼補救。它沒有「指尖觸感」,沒有「重力感應」,更沒有「掉下去就再撿起來」這種三歲小孩都會的應變能力。

更有趣的是,據 MIT 教授、Eka 共同創辦人 Pulkit Agrawal 透露,他當年對 Dactyl 團隊的成員提出「用模擬訓練機器手從上方抓取物體」的想法時,對方給了他整整一個小時的教訓:「這行不通的,永遠行不通。」

關門的 OpenAI 與繼續向前的兩個人

2018 年 OpenAI 的 Dactyl 專案看似華麗,但很快就走到了死胡同。問題出在所謂的 sim-to-real gap(模擬到現實的鴻溝)——你可以在虛擬環境中讓機器手練習十萬次轉方塊,但那些在完美物理引擎下學會的技能,一放到真實世界就失靈了。真實世界的摩擦力不均、重力持續變化、傳感器雜訊——這些在模擬中都被簡化或忽略了。

於是 OpenAI 在 2021 年左右放棄了機器人研究,全力投入大型語言模型和聊天機器人。(有趣的是,OpenAI 最近又重新啟動了機器人團隊。)

但兩位關鍵人物沒有放棄。

Pulkit Agrawal,MIT 教授,早在 2017 年就以一篇關於「用新方法教電腦玩遊戲」的論文在 AI 圈展露頭角。他的直覺是:Dactyl 用模擬訓練是對的,但模擬不夠真實——只要把模擬做得更逼近現實,讓機器手在虛擬世界中學會應對真實世界的雜訊,那麼當它回到真實世界時,就不會瞬間變回「鐵塊」。

Tuomas Haarnoja,前 Google DeepMind 機器人研究員,當時正在 DeepMind 用虛擬強化學習訓練小型人形機器人踢足球。你可能會覺得「踢足球比轉螺絲更簡單吧?」——其實正相反,足球場不會在機器人腳下滾來滾去,但燈泡在桌上會滾、夾住了會滑、角度不對會掉。靈巧抓取的難度遠高於踢球。

兩人在各自的實驗室獨立前進,但都相信同一件事:模擬到現實的鴻溝是可以被填平的,關鍵在於讓虛擬環境無限逼近真實世界的複雜度。

Eka 的解法:讓機器手學會「找鑰匙」

走進 Eka 的辦公室,你會看到一個有點滑稽的場景:好幾隻不同型號的機器手臂,桌上堆滿了各式各樣的雜物——手套、小盒耳塞、梳子、鑰匙圈、不同形狀的塑膠塊。

這些不是員工的私人物品。它們是 訓練道具

Eka 的訓練方法跟 OpenAI 的 Dactyl 本質上都是強化學習——讓機器透過反覆嘗試和獎勵回饋來學會動作。但關鍵差別在於兩點:

第一,模擬的真實度。

Eka 的虛擬環境不再只是簡化版的物理引擎。團隊精細建模了物體的重量分布、表面摩擦力、甚至空氣阻力。機器手在虛擬世界中訓練時,遇到的「隨機干擾」也刻意設計得更接近真實——比如物體突然滑動、角度偏差、傳感器遲滯。這使得模擬中學會的技能可以直接轉移到真實機器人上,幾乎不需要調整。

第二,從「被動抓取」到「主動探索」。

Dactyl 的魔術方塊是特製的,內建感測器可以追蹤每個方塊的位置,回傳數據給機器手。換句話說,魔術方塊在幫助機器手——而不是機器手在主動感知物體。

Eka 的機器爪則完全是另一回事。它必須在沒有物體感測器輔助的情況下,靠視覺和觸覺來判斷物體的位置、形狀、重量分布。當梳子被放在桌上時,它不能直接去「掐」——它得先輕輕碰一下,確認角度,調整抓取方向,然後才施力夾起。

WIRED 記者做了一個實驗:他把自己的鑰匙圈放在機器爪面前。鑰匙圈上有一個絨毛吊飾,形狀對機器來說極不規則。機器爪俯衝下去,用鉗指輕輕戳了幾下,像是盲人用手杖探路,然後精準地夾起鑰匙圈。當記者試圖把鑰匙從機器爪中拿走時,機器還抵抗了一下——然後鬆開,立刻轉向桌面,繼續尋找下一個可以抓的東西。

這段描述讀起來幾乎像是一個有「工作狂人格」的生物,而非一台只知道執行固定指令的機械臂。

「數兆美元流經人類的雙手」

Agrawal 在訪談中說了一句讓人印象深刻的話:「數兆美元流經人類的雙手。對我來說,這是世界上最重要的問題。」

他的意思是:人類社會中大量的經濟活動依賴於手的靈巧操作。從工廠裝配線、倉儲揀貨、餐廳料理、醫療手術,到居家清掃——任何需要「用手」的工作,目前都無法被自動化,不是因為技術太難,而是因為機器人永遠欠缺最後那 5% 的靈活性。

這就是 Eka 想要解決的核心問題:讓機器人不再只會抓特定的物體,而是學會「怎麼抓東西」這項通用技能。

Agrawal 和 Haarnoja 認為,他們已經走了一半的路。剩下的挑戰只是「規模化」——讓機器爪在更多物體、更多場景中訓練,把從模擬中學到的靈巧技能擴展到真實世界的每一個角落。

這是機器人的 ChatGPT 時刻嗎?

當 WIRED 記者看著 Eka 的機器爪流暢地完成那些動作時,他想起了第一次使用 ChatGPT 的經驗——那種「這背後好像真的有智慧」的詭異感覺。

同樣的問題現在被丟到了機器人領域:ChatGPT 對於語言模型來說是轉捩點,那麼 Eka 的機器爪是否代表機器人領域也有了自己的轉捩點?

兩者之間確實有驚人的相似之處:

規模效應。 ChatGPT 的成功來自於將模型參數規模和訓練資料規模推到極致。Eka 的靈巧策略同樣來自於在模擬環境中進行大規模強化學習——不是幾千次,而是數百萬次的抓取嘗試。

通用性。 傳統機器人專精於單一任務——這台手臂只會焊接,那台只會揀貨。Eka 的目標是打造一個「通用靈巧控制器」,就像 GPT 模型可以處理翻譯、摘要、寫程式一樣。

湧現行為。 Eka 記者描述的「機器爪抵抗了一下才鬆開鑰匙」——這個行為沒有人刻意編程。它是在無數次訓練中「湧現」出來的,就像語言模型突然學會了推理能力一樣。

但也要保持清醒。UC Berkeley 教授 Ken Goldberg 指出,Agrawal 最大的優勢就是「總是往別人不走的方向前進」——這句話聽起來像讚美,但也暗示了這個方向仍充滿不確定性。從實驗室到量產、從撿鑰匙到取代人類勞動力,中間還隔著巨大的鴻溝。

台灣開發者該如何看待這件事?

這件事對台灣讀者來說,不只是「又一個酷炫的機器人影片」那麼簡單。

台灣擁有全球最完整的半導體供應鏈,也是精密機械和工具機的重要生產基地。機器人產業的下一波浪潮,對台灣來說既是機會也是考驗。

製造業的自動化升級。 台灣許多電子代工廠和精密加工廠已經高度自動化,但那些仍需要「人手」的環節——比如零件的微調組裝、品管檢測中的觸覺判斷——一直是自動化的瓶頸。如果 Eka 的技術能夠成熟,這些環節的機器人化將會大大加速。

機器人產業鏈的角色定位。 目前國際上的機器人新創(包括 Eka)大部分設計在美國,但製造和量產往往需要亞洲供應鏈的支援。台灣在精密機械、伺服馬達、減速機等關鍵零組件上都有深厚基礎。問題在於:台灣能否從「零組件供應商」升級為「系統整合者」,在機器人價值鏈中佔據更高的位置?

AI 人才的跨界機會。 機器人靈巧操作這個領域,台灣的 AI 研究者參與度還不高。但這恰恰是一個值得投入的方向——它需要的是深度強化學習、模擬環境建構、以及真實世界機器人系統的整合能力,這些都是台灣可以培養的技術棧。

下一顆燈泡在哪裡?

回到 Eka 辦公室那個場景。燈泡被機器爪順利旋入燈座,光線亮起的瞬間,在場的人應該都看到了一種可能性——不是「機器人即將取代人類工作」的威脅,而是「機器人終於能做到那些我們以為它們永遠做不到的事了」。

但這趟技術進程就像那顆燈泡剛被旋入的過程——只是一切的開始。Eka 團隊還需解決成本問題(實驗硬體造價昂貴)、穩定問題(實驗室示範和量產部署的落差)、以及場景適應問題。

站在 2026 年的這個時間點回望,OpenAI 的 Dactyl 像是一個過早被點亮的訊號燈——它點亮了,但很快就熄滅了。而 Eka 更像是那個摸索許久、終於碰到正確位置的嘗試——它可能還不太穩,但它確實找到了方向。

如果你是一個對這個領域感興趣的開發者,現在可能是拿起一個便宜的機械手臂、裝上一個攝影鏡頭、開始嘗試用強化學習教它抓東西的最好時機。因為從歷史上看,每一次「ChatGPT 時刻」的前夕,都有一群人在實驗室裡默默地做著那些「大家都說不可能」的事——而你永遠不知道,下一個轉動燈泡的人會不會是你。