DeepMind推出首个能在机器人端运行的AI模型
| 来源:【字号:大 中 小】
2025年6月24日,谷歌DeepMind正式发布了Gemini Robotics On-Device模型。该模型基于谷歌Gemini 2.0模型构建,是一个专为机器人设计的AI模型,最大的特点是可以完全在机器人端运行,无需依赖云端连接,从而赋予机器人前所未有的自主性与灵活性。
此前,包括谷歌在内的许多机器人系统,都采用一种混合架构:在机器人上部署一个较小的模型以处理快速响应,同时将需要复杂推理和规划的“重脑力活”交由云端强大的服务器处理。基于这种架构的机器人不仅对网络连接有着极高的要求,把隐私数据上传云端还存在较大的安全隐患。
Gemini Robotics On-Device模型正是为了解决这些核心痛点而生。该模型是一个完全集成的视觉-语言-动作(VLA)模型,能够同时处理视觉输入、自然语言指令和动作输出,并且能在网络信号不佳甚至完全没有网络的“离线”环境中独立工作。同时,该模型具有强大的“快速任务适应”能力,研究表明,仅需50到100个新的任务演示,该模型就能快速学习并掌握新技能。
在性能方面,即使完全在本地运行,Gemini Robotics On-Device在多项泛化能力基准测试中,表现已非常接近需要云端支持的旗舰版Gemini Robotics模型,并显著优于之前的其他本地化模型。基于该模型,机器人不仅能完成像折叠衣物、整理手提袋这类日常任务,甚至可以应对“系鞋带”这种对机器人来说历来是巨大挑战的精细操作。
此外,谷歌强调,Gemini Robotics On-Device是其首个开放给开发者进行微调的机器人VLA模型,开发者可以根据自己的特定需求和应用场景,对模型进行定制化训练。
信息来源:
https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/
https://mp.weixin.qq.com/s/JfxwsoHgQqsp4q1-7HZLmw
