谷歌DeepMind发布新一代多模态具身智能大模型
| 来源:【字号:大 中 小】
2025年9月25日,谷歌DeepMind发布新一代多模态具身智能大模型Gemini Robotics 1.5及其扩展版本Gemini Robotics-ER 1.5,宣称这是全球首款专为具身推理优化的思考型模型。新模型加强了机器人感知、规划、推理、使用工具和执行复杂任务的能力,并在不同硬件平台表现出强大泛化学习能力,为真正的通用型机器人大模型奠定了重要基础。
Gemini Robotics-ER 1.5是首个专门为具身推理优化的思考型多模态大模型,不仅能在物理环境中进行逻辑决策和高层规划,还在验证空间理解、任务规划、视觉问答等能力的15项学术和内部基准测试中取得了平均62.8分的最佳成绩,显著优于第二名的60.6分。
传统的视觉语言行动模型通常只将指令直接转化为运动控制信号,而Gemini Robotics 1.5引入了“先思考再行动”的机制,能够生成内部推理过程,并用自然语言解释自己的思考步骤,从而在执行多步骤任务时更加透明、稳健和可靠。这种语义层面的“思考”可大幅提升机器人完成复杂任务的能力,在部分任务上实现了44%的分数提升,并将长程任务的失败率从44.5%降低到22%。
特别值得注意的是,Gemini Robotics 1.5具有出色的跨硬件平台学习能力,可以将一种机器人学到的技能直接迁移到另一种机器人上,而无需针对每个新平台重新训练或微调。例如,在ALOHA 2机器人上学习的任务技能,能够直接在Apollo人形机器人或Franka双臂机器人上执行。DeepMind认为,这项技术可大幅缩短新机器人的技能学习周期,为构建通用的机器人大模型奠定重要基础。
信息来源:
https://deepmind.google/models/gemini-robotics/
