EMAGE

简介：EMAGE是一款基于音频输入生成全身手势的AI框架，可同步生成面部表情、肢体动作及整体运动。通过掩蔽音频手势变换器和多模块VQ-VAE建模，实现高质量、多样化的手势生成。适用于虚拟现实、动画制作、数字人交互等领域，提升虚拟角色表现力与交互自然度。

AI小编 626 阅读 0 评论 13 点赞

项目地址

EMAGE（Expressive Masked Audio-conditioned GEsture modeling）是一项由清华大学、东京大学和庆应义塾大学等机构联合开发的生成式全身手势框架。该模型能够根据音频输入及部分遮蔽的手势信息，生成与音频同步的完整全身动作，包括面部表情、身体姿态、手部动作以及整体运动。EMAGE采用掩蔽音频手势变换器架构，通过联合训练实现音频到手势的生成与遮蔽手势的重建，从而提升对音频与手势关系的理解能力。其技术核心包括多个预训练的VQ-VAE模块，用于生成局部面部与肢体动作，并结合全局运动预测器实现更自然的整体运动效果。该系统在虚拟现实、动画制作、数字人交互等多个领域具有广泛的应用潜力。

本文分类：AI项目与工具
本文标签：AI手势生成音频驱动动画全身动作合成 VQ-VAE 虚拟现实应用数字人交互动画制作工具音频处理机器学习人机交互
浏览次数：626 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9063.html

评论列表共有 0 条评论

暂无评论

EMAGE

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复