Gemini Robotics 是由谷歌 DeepMind 研发的机器人项目,基于 Gemini 2.0 大型多模态模型构建,旨在将人工智能能力引入现实物理世界。该项目包含两个核心模型:Gemini Robotics-ER 和 Gemini Robotics。其中,Gemini Robotics-ER 是增强型视觉-语言模型(VLM),具备强大的具身推理能力,可完成三维空间理解、物体检测、轨迹预测和抓取操作等任务。而 Gemini Robotics 是视觉-语言-动作(VLA)模型,能够直接控制机器人执行复杂操作任务,表现出对环境变化的强适应性与开放词汇指令的执行力。通过进一步微调,该系统可以处理长时域、高灵活性的任务,如折纸或玩牌,并能快速适应新任务和机器人形态。 项目采用数据驱动的训练方式,结合真实机器人操作数据与非机器人数据(如图像、文本和视频),提升模型的泛化能力。其架构包括云端 VLA 主干网络和本地动作解码器,实现高效的视觉与语言处理及实时动作生成。
发表评论 取消回复