Gemini Robotics新模型發布，機器人更聰明、動作更精細

為使AI在實體世界對人類有所幫助，Google DeepMind推出2款以Gemini 2.0為基礎的全新模型──Gemini Robotics、Gemini Robotics-ER，為新一代機器人創建基礎。

贊助商廣告

Gemini Robotics是一款視覺-語言-動作（vision-language-action，VLA）模型，即使之前沒有受過相關訓練，Gemini Robotics能夠理解當下場景、做出反應。

Google DeepMind機器人部門負責人Carolina Parada表示，Gemini Robotics借鑑Gemini對多模態世界的理解，並增加物理動作作為新的輸出方式，用於直接控制機器人。

機器人採用的AI模型主要需要三個特質：它必須具通用性，能夠適應不同的場景；它需要互動性，意味著能夠理解並對指令或環境的變化快速回應；它還要有敏捷性，能夠做到人們用手和手指所做的事，像是小心翼翼地操控物體。為此Gemini Robotics在這三個特質取得具體進展，不僅能夠處理當下場景，與人和環境的互動表現也很出色，能準確執行特定動作，比方說將紙摺疊、打開瓶蓋等。

「雖然過去我們分別在這三個領域的通用機器人技術取得進展，但現在我們用單一模型大幅提升這三方面的表現。這使我們能夠構建更有能力、更敏捷且更能適應環境變化的機器人」，Carolina Parada表示。

不只如此，Google DeepMind還推出Gemini Robotics-ER（embodied reasoning），模型具有先進的空間理解能力，能夠理解複雜且動態的現實世界；Gemini Robotics-ER更能執行控制機器人所需的所有步驟，例如感知、狀態判斷、空間理解及生成程序代碼，比起Gemini 2.0能有2-3倍的成功率。

舉例來說，當桌上擺滿食物、想要整理時，機器人需要確切知道每個物品的位置，還需要懂得打開餐盒、抓取物品並準確放入餐盒。這是Gemini Robotics-ER期望做到的AI推理。這款模型專為機器人研發人員設計，可與現有的底層控制器（控制機器人動作的系統）連接，讓他們能夠運用由Gemini Robotics-ER驅動的能力。

贊助商廣告

Google DeepMind公開Gemini Robotics研究成果。

安全性方面，Google DeepMind正在開發一種分層方法，Gemini Robotics-ER也被訓練來評估特定場景下某些潛在動作是否安全。Google DeepMind還推出新的基準測試和框架，以促進AI產業中的安全性研究。

值得關注的是，Google DeepMind正與機器人開發商Apptronik合作，運用Gemini 2.0打造新一代人形機器人；同時選定值得信賴的測試夥伴一同合作，指導Gemini Robotics-ER的未來，包括Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Tools等公司。

Gemini Robotics應用範例。

（首圖來源：影片截屏）