音频驱动 - 智狐AI导航

INFP

INFP是一款基于音频驱动的头部生成框架，专为双人对话设计，具备自动角色转换功能。它通过两个阶段实现头部生成：基于动作的头部模仿和音频引导的动作生成。同时，INFP提出了大规模双人对话数据集DyConv，推动了相关领域的研究进展。该工具适用于视频会议、虚拟助手、教育培训、客户服务等多个场景，支持实时互动并可调节生成风格。

AI项目与工具 2025年06月12日 62 点赞 0 评论 662 浏览

EMAGE

EMAGE是一款基于音频输入生成全身手势的AI框架，可同步生成面部表情、肢体动作及整体运动。通过掩蔽音频手势变换器和多模块VQ-VAE建模，实现高质量、多样化的手势生成。适用于虚拟现实、动画制作、数字人交互等领域，提升虚拟角色表现力与交互自然度。

AI项目与工具 2025年06月12日 13 点赞 0 评论 657 浏览

PoseTalk

PoseTalk 是一款基于文本和音频驱动的开源工具，专注于生成自然且逼真的头部动画视频。它通过 Pose Latent Diffusion (PLD) 模型和级联网络实现唇部同步与运动细化，广泛应用于虚拟助手、在线教育和娱乐等领域，提供多样化的动画生成能力和高度精准的唇形同步效果。

AI项目与工具 2025年06月12日 53 点赞 0 评论 649 浏览

HunyuanCustom

HunyuanCustom是腾讯混元团队开发的多模态视频生成框架，支持图像、音频、视频和文本等多种输入条件，生成高质量定制化视频。采用文本-图像融合与图像ID增强技术，提升身份一致性和视频真实性。适用于虚拟人广告、虚拟试穿、视频编辑等场景，具备音频驱动和视频驱动两种生成方式，展现强大可控性与灵活性。

AI项目与工具 2025年06月11日 73 点赞 0 评论 613 浏览

FLOAT

FLOAT是一款基于音频驱动的虚拟人像生成模型，利用运动潜在空间和流匹配技术，实现时间一致性视频生成。它支持情感增强，生成自然且富有表现力的虚拟人物，广泛应用于虚拟主播、视频会议、社交媒体、游戏以及电影制作等多个领域，同时具备高效的采样和生成能力。

AI项目与工具 2025年06月12日 18 点赞 0 评论 602 浏览

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型，拥有约 70 亿参数，支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能，适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术，结合多阶段训练与优化策略，提升生成效率与质量，兼顾性能与成本效益。

AI项目与工具 2025年06月11日 80 点赞 0 评论 586 浏览

MimicTalk

MimicTalk是一款利用NeRF技术快速生成个性化3D说话人脸模型的工具，其核心功能包括15分钟内完成新身份训练、高质量视频生成、增强的表现力以及上下文学习能力。该工具通过混合适应流程、上下文风格化音频到运动模型等技术，实现了高效的数据样本利用和训练效率提升，适用于虚拟主播、远程协作、VR/AR等领域。

AI项目与工具 2025年06月12日 59 点赞 0 评论 579 浏览