机器人操作

Gen2Act

Gen2Act是一种基于预测网络生成人类视频的机器人操作策略，由谷歌、卡内基梅隆大学和斯坦福大学联合开发。它通过零样本视频生成、闭环策略执行和视觉特征提取等技术，实现了对未见过物体和动作的高效操作，支持复杂任务的长时执行，同时减少了对机器人数据采集的需求，广泛应用于家庭、工业、医疗和灾难救援等领域。

AI项目与工具 2025年06月12日 38 点赞 0 评论 721 浏览

OmniManip

OmniManip是由北京大学与智元机器人联合实验室开发的通用机器人操作框架，结合视觉语言模型与三维操作技术，实现机器人在非结构化环境中的任务执行。其核心为以对象为中心的交互基元表示法，支持零样本泛化、跨平台部署及大规模仿真数据生成。通过双闭环系统设计与任务分解机制，提升操作精度与适应性，适用于日常操作、工业自动化及服务机器人等场景。

AI项目与工具 2025年06月12日 53 点赞 0 评论 618 浏览

Magma

Magma是微软研究院开发的多模态AI基础模型，具备理解与执行多模态任务的能力，覆盖数字与物理环境。它融合语言、空间与时间智能，支持从UI导航到机器人操作的复杂任务。基于大规模视觉-语言和动作数据预训练，Magma在零样本和微调设置下表现优异，适用于网页操作、机器人控制、视频理解及智能助手等多个领域。

AI项目与工具 2025年06月12日 100 点赞 0 评论 589 浏览

SpatialVLA

SpatialVLA是一款由多机构联合研发的空间具身通用操作模型，具备强大的3D空间理解能力与跨平台泛化控制能力。通过Ego3D位置编码和自适应动作网格技术，实现精准的环境感知与动作生成。支持零样本任务执行与快速微调，适用于工业、物流、医疗等多个领域，推动机器人技术的发展与应用。

AI项目与工具 2025年06月12日 39 点赞 0 评论 651 浏览

Vid2World

Vid2World是由清华大学和重庆大学联合开发的创新框架，能够将全序列、非因果的被动视频扩散模型（VDM）转换为自回归、交互式、动作条件化的世界模型。该模型基于视频扩散因果化和因果动作引导两大核心技术，解决了传统VDM在因果生成和动作条件化方面的不足。Vid2World支持高保真视频生成、动作条件化、自回归生成和因果推理，适用于机器人操作、游戏模拟等复杂环境，具有广泛的应用前景。

AI项目与工具 2025年06月11日 33 点赞 0 评论 895 浏览

机器人操作

首页

机器人操作

列表

默认

浏览次数

发布日期

Gen2Act

OmniManip

Magma

SpatialVLA

Vid2World

机器人操作 首页 机器人操作

列表 默认 浏览次数 发布日期

Gen2Act

OmniManip

Magma

SpatialVLA

Vid2World

机器人操作

首页

机器人操作

列表

默认

浏览次数

发布日期