AvatarGO简介
AvatarGO是由南洋理工大学S-Lab、上海AI Lab和香港大学联合开发的一种新型框架,旨在从文本输入直接生成可动画化的4D人体与物体交互场景。该框架采用零样本(zero-shot)方法,基于预训练的扩散模型,解决了传统方法在生成日常人体-物体交互(HOI)场景时因缺乏大规模交互数据而受到的限制。其核心技术包括:由语言模型引导的接触重定位,利用Lang-SAM模型从文本提示中识别接触部位,确保人体与物体的空间关系准确;以及基于SMPL-X模型的运动优化,通过线性混合蒙皮函数构建运动场,提升动画质量并减少穿透问题。AvatarGO在多种人体与物体组合及多样化姿态下展现出卓越的生成与动画能力。
AvatarGO的主要功能
- 文本驱动的4D交互场景生成:根据简单的文本描述生成包含人体与物体交互的4D动画。
- 精准的人体与物体接触识别:准确识别接触部位(如手、脚等),确保空间关系合理。
- 优化动画质量,避免穿透现象:在动画生成过程中有效防止人体与物体之间的穿透。
- 多样化的4D动画生成:支持多种人物动作和物体交互,生成动态的4D场景。
- 支持多样的人物与物体组合:适用于虚拟角色和现实人物,以及各类日常物品。
AvatarGO的技术原理
- LLM引导的接触重定位:利用Lang-SAM模型从文本中提取接触部位,结合3D渲染和分割掩码,初始化物体位置。
- 空间感知的分数蒸馏采样:增强与人体-物体交互相关的文本标记注意力,提升模型理解能力。
- 对应关系感知的运动优化:基于SMPL-X模型构建运动场,通过线性混合蒙皮函数同步优化人体与物体的运动。
- 基于扩散模型的3D与4D生成:
- 3D生成:使用DreamGaussian方法生成高质量的3D人体和物体模型。
- 4D动画生成:基于HexPlane特征和SMPL-X模型生成连贯的4D动画。
AvatarGO项目信息
- 项目官网:https://yukangcao.github.io/AvatarGO
- GitHub仓库:https://github.com/yukangcao/AvatarGO
- arXiv技术论文:https://arxiv.org/pdf/2410.07164
AvatarGO的应用场景
- 虚拟导购员:为顾客提供商品信息与购物建议。
- 展厅讲解员:在博物馆或展览中介绍展品。
- 数字大堂经理:在银行或营业厅提供咨询与引导服务。
- 车载虚拟助手:在汽车中提供陪伴与交互体验。
- VR/AR内容创作:用于虚拟现实与增强现实中的角色与交互设计。
发表评论 取消回复