宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Gemini Robotics新模型發布,機器人更聰明、動作更精細

2025年03月13日 首頁 » 熱門科技

Gemini Robotics新模型發布,機器人更聰明、動作更精細


為使AI在實體世界對人類有所幫助,Google DeepMind推出2款以Gemini 2.0為基礎的全新模型──Gemini Robotics、Gemini Robotics-ER,為新一代機器人創建基礎。

Gemini Robotics是一款視覺-語言-動作(vision-language-action,VLA)模型,即使之前沒有受過相關訓練,Gemini Robotics能夠理解當下場景、做出反應。

Google DeepMind機器人部門負責人Carolina Parada表示,Gemini Robotics借鑑Gemini對多模態世界的理解,並增加物理動作作為新的輸出方式,用於直接控制機器人。

機器人採用的AI模型主要需要三個特質:它必須具通用性,能夠適應不同的場景;它需要互動性,意味著能夠理解並對指令或環境的變化快速回應;它還要有敏捷性,能夠做到人們用手和手指所做的事,像是小心翼翼地操控物體。為此Gemini Robotics在這三個特質取得具體進展,不僅能夠處理當下場景,與人和環境的互動表現也很出色,能準確執行特定動作,比方說將紙摺疊、打開瓶蓋等。

「雖然過去我們分別在這三個領域的通用機器人技術取得進展,但現在我們用單一模型大幅提升這三方面的表現。這使我們能夠構建更有能力、更敏捷且更能適應環境變化的機器人」,Carolina Parada表示。

不只如此,Google DeepMind還推出Gemini Robotics-ER(embodied reasoning),模型具有先進的空間理解能力,能夠理解複雜且動態的現實世界;Gemini Robotics-ER更能執行控制機器人所需的所有步驟,例如感知、狀態判斷、空間理解及生成程序代碼,比起Gemini 2.0能有2-3倍的成功率。

舉例來說,當桌上擺滿食物、想要整理時,機器人需要確切知道每個物品的位置,還需要懂得打開餐盒、抓取物品並準確放入餐盒。這是Gemini Robotics-ER期望做到的AI推理。這款模型專為機器人研發人員設計,可與現有的底層控制器(控制機器人動作的系統)連接,讓他們能夠運用由Gemini Robotics-ER驅動的能力。

Google DeepMind公開Gemini Robotics研究成果。

安全性方面,Google DeepMind正在開發一種分層方法,Gemini Robotics-ER也被訓練來評估特定場景下某些潛在動作是否安全。Google DeepMind還推出新的基準測試和框架,以促進AI產業中的安全性研究。

值得關注的是,Google DeepMind正與機器人開發商Apptronik合作,運用Gemini 2.0打造新一代人形機器人;同時選定值得信賴的測試夥伴一同合作,指導Gemini Robotics-ER的未來,包括Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Tools等公司。

Gemini Robotics應用範例。

(首圖來源:影片截屏)

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新