Gemini Robotics

简介：Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统，融合视觉-语言-动作模型，支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力，适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练，结合真实操作与多模态信息，实现高效、灵活的机器人控制。

AI小编 912 阅读 0 评论 17 点赞

官网地址

Gemini Robotics 是由谷歌 DeepMind 研发的机器人项目，基于 Gemini 2.0 大型多模态模型构建，旨在将人工智能能力引入现实物理世界。该项目包含两个核心模型：Gemini Robotics-ER 和 Gemini Robotics。其中，Gemini Robotics-ER 是增强型视觉-语言模型（VLM），具备强大的具身推理能力，可完成三维空间理解、物体检测、轨迹预测和抓取操作等任务。而 Gemini Robotics 是视觉-语言-动作（VLA）模型，能够直接控制机器人执行复杂操作任务，表现出对环境变化的强适应性与开放词汇指令的执行力。通过进一步微调，该系统可以处理长时域、高灵活性的任务，如折纸或玩牌，并能快速适应新任务和机器人形态。项目采用数据驱动的训练方式，结合真实机器人操作数据与非机器人数据（如图像、文本和视频），提升模型的泛化能力。其架构包括云端 VLA 主干网络和本地动作解码器，实现高效的视觉与语言处理及实时动作生成。

本文分类：AI项目与工具
本文标签：AI机器人 Gemini 2.0 VLA模型具身智能多模态AI 机器人控制深度学习智能操作视觉语言模型自动化应用
浏览次数：912 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8475.html

上一篇 > Gemini 2.0 Flash
下一篇 > 飞算JavaAI

评论列表共有 0 条评论

暂无评论

Gemini Robotics

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复