Google DeepMind發布兩款基於Gemini 2.0的人工智慧(AI)模型,分別為Gemini Robotics和Gemini Robotics-ER,標誌著AI在現實世界的應用邁進新階段。這兩款模型不僅能夠理解及回應語言、圖像和影片等資訊,更進一步實現物理行動,讓AI具備「具身推理」(Embodied Reasoning),即像人類一樣感知環境並作出實際行動。
Gemini Robotics以Gemini 2.0為基礎,加入了機械控制功能,令AI不只是停留於數碼世界,還能實際操作機器人執行各種任務。該模型具備三大核心能力:
測試結果顯示,Gemini Robotics在通用性測試基準上的表現超越現有視覺-語言-動作(VLA)模型超過兩倍,進一步推動機器人在現實世界的應用。
另一款模型Gemini Robotics-ER強化AI的空間感知能力,使機器人可更靈活運用Gemini 2.0進行複雜場景的決策與操作。Google DeepMind也與一眾研究人員合作,讓開發者利用該技術研發更多應用場景。
Google DeepMind正與機器人技術公司Apptronik合作,基於Gemini 2.0研發新一代人形機器人。其Apollo機器人平台便是其中一個示範案例,展示Gemini Robotics如何適應不同機械結構,進行更複雜的任務。
Google DeepMind表示,未來將繼續探索Gemini Robotics的應用,並邀請特選測試者參與開發,期望將AI技術更廣泛應用於現實世界。