Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学联合研发的一种机器人操作策略,其核心是通过预测网络数据中的运动信息,生成人类执行任务的视频,并以此引导机器人完成新任务。该方法利用预训练的视频生成模型和少量机器人交互数据,避免了直接生成机器人视频的复杂性,从而提升了策略的泛化能力。Gen2Act在实际应用中展现出卓越的表现,能够在未见过的物体类型和动作中表现出色,成功率为现有方法的显著提升。此外,它支持长时任务的连续执行,如“制作咖啡”等多步骤活动,同时通过闭环策略动态调整,提高了操作精度,大幅降低了对大规模机器人数据采集的需求。
发表评论 取消回复