谷歌DeepMind发布新一代多模态具身智能大模型----中国科学院网信工作网

数字技术与基础设施

谷歌DeepMind发布新一代多模态具身智能大模型

日期：2025-10-21

| 来源：【字号：大中小】

2025年9月25日，谷歌DeepMind发布新一代多模态具身智能大模型Gemini Robotics 1.5及其扩展版本Gemini Robotics-ER 1.5，宣称这是全球首款专为具身推理优化的思考型模型。新模型加强了机器人感知、规划、推理、使用工具和执行复杂任务的能力，并在不同硬件平台表现出强大泛化学习能力，为真正的通用型机器人大模型奠定了重要基础。

Gemini Robotics-ER 1.5是首个专门为具身推理优化的思考型多模态大模型，不仅能在物理环境中进行逻辑决策和高层规划，还在验证空间理解、任务规划、视觉问答等能力的15项学术和内部基准测试中取得了平均62.8分的最佳成绩，显著优于第二名的60.6分。

传统的视觉语言行动模型通常只将指令直接转化为运动控制信号，而Gemini Robotics 1.5引入了“先思考再行动”的机制，能够生成内部推理过程，并用自然语言解释自己的思考步骤，从而在执行多步骤任务时更加透明、稳健和可靠。这种语义层面的“思考”可大幅提升机器人完成复杂任务的能力，在部分任务上实现了44%的分数提升，并将长程任务的失败率从44.5%降低到22%。

特别值得注意的是，Gemini Robotics 1.5具有出色的跨硬件平台学习能力，可以将一种机器人学到的技能直接迁移到另一种机器人上，而无需针对每个新平台重新训练或微调。例如，在ALOHA 2机器人上学习的任务技能，能够直接在Apollo人形机器人或Franka双臂机器人上执行。DeepMind认为，这项技术可大幅缩短新机器人的技能学习周期，为构建通用的机器人大模型奠定重要基础。

信息来源：

https://deepmind.google/models/gemini-robotics/

附件：