EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是一项由清华大学、东京大学和庆应义塾大学等机构联合开发的生成式全身手势框架。该模型能够根据音频输入及部分遮蔽的手势信息,生成与音频同步的完整全身动作,包括面部表情、身体姿态、手部动作以及整体运动。EMAGE采用掩蔽音频手势变换器架构,通过联合训练实现音频到手势的生成与遮蔽手势的重建,从而提升对音频与手势关系的理解能力。其技术核心包括多个预训练的VQ-VAE模块,用于生成局部面部与肢体动作,并结合全局运动预测器实现更自然的整体运动效果。该系统在虚拟现实、动画制作、数字人交互等多个领域具有广泛的应用潜力。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部