Mobvoi MCP Server Mobvoi MCP Server是出门问问推出的一站式AI工具,集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能,支持多客户端和多场景应用。基于标准化接口和开源生态,提供高效、灵活的数字生产力解决方案,适用于内容创作、虚拟主播、在线教育等多个领域。 AI项目与工具 2025年06月11日 82 点赞 0 评论 193 浏览
HRAvatar HRAvatar是由清华大学联合IDEA团队推出的单目视频重建技术,能够从普通单目视频中生成高质量、可重光照的3D头像。它采用可学习的形变基和线性蒙皮技术,结合精确的表情编码器和物理渲染模型,实现高精度重建和实时渲染(约155 FPS)。支持材质编辑、跨视角渲染和动画化,适用于数字人、虚拟主播、AR/VR、游戏开发和影视制作等领域。 AI项目与工具 2025年06月11日 43 点赞 0 评论 504 浏览
FantasyTalking FantasyTalking是一种由阿里巴巴AMAP团队与北京邮电大学联合开发的AI工具,能够从静态肖像生成高质量、可动画化的虚拟形象。该工具采用双阶段视听对齐策略,结合面部专注的交叉注意力模块和运动强度调制模块,实现精准口型同步、丰富表情生成及全身动作控制。支持多种风格和姿态,适用于游戏、影视、VR/AR、虚拟主播及教育等领域。 AI项目与工具 2025年06月11日 83 点赞 0 评论 273 浏览
ACTalker ACTalker 是一种基于视频扩散模型的端到端工具,可生成高质量、自然的说话人头部视频。支持多信号控制(如音频、表情),采用并行 Mamba 结构和门控机制,实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异,适用于虚拟主播、远程会议、在线教育等多种场景。 AI项目与工具 2025年06月12日 99 点赞 0 评论 367 浏览
MoCha MoCha 是一款由 Meta 与滑铁卢大学联合开发的端到端对话角色视频生成模型,支持语音与文本驱动的角色动画生成,具备全身动作模拟与多角色对话交互能力。其核心技术包括扩散变压器架构和语音-视频窗口注意力机制,确保动画与语音精准同步。适用于虚拟主播、影视动画、教育内容及数字人客服等多个领域,提升了内容创作效率与表现力。 AI项目与工具 2025年06月12日 34 点赞 0 评论 320 浏览
Spark Spark-TTS是一款基于大型语言模型的高效文本转语音工具,支持中英文双语及跨语言合成。它无需额外生成模型,通过LLM预测编码直接生成音频,实现零样本语音克隆。用户可自定义语音参数,如音色、语速等,适用于语音助手、多语言内容创作、智能客服及虚拟角色配音等多种场景。 AI项目与工具 2025年06月12日 47 点赞 0 评论 147 浏览
JoyGen JoyGen是由京东科技与香港大学联合开发的音频驱动型3D说话人脸视频生成框架,能够实现唇部动作与音频信号的精准同步,并提供高质量的视觉效果。该工具采用单步UNet架构进行高效视频编辑,基于130小时中文视频数据集训练,在唇音同步和视觉质量方面表现优异。适用于虚拟主播、动画制作、在线教育及多语言视频生成等多个领域,为视频内容创作提供了创新解决方案。 AI项目与工具 2025年06月12日 78 点赞 0 评论 134 浏览
灰豚数字人 灰豚数字人是一款基于AI技术的数字人平台,支持7*24小时自动化直播和个性化视频创作,提供高清4K画质及真人形象克隆功能。用户可自由选择数字人形象并进行多场景应用,如直播带货、企业营销、互动娱乐等。平台提供系统源码和服务器支持,有效降低创作成本,适用于多个行业领域,具备高效、灵活和可扩展的特点。 AI项目与工具 2025年06月12日 99 点赞 0 评论 374 浏览
FLOAT FLOAT是一款基于音频驱动的虚拟人像生成模型,利用运动潜在空间和流匹配技术,实现时间一致性视频生成。它支持情感增强,生成自然且富有表现力的虚拟人物,广泛应用于虚拟主播、视频会议、社交媒体、游戏以及电影制作等多个领域,同时具备高效的采样和生成能力。 AI项目与工具 2025年06月12日 18 点赞 0 评论 267 浏览
Amphion Amphion是一款开源音频生成工具包,包含文本转语音(TTS)、歌声合成(SVS)、语音转换(VC)、歌声转换(SVC)、文本转音频(TTA)和文本转音乐(TTM)等功能。它支持多种神经声码器,并提供可视化模型架构,帮助用户快速掌握音频生成技术。通过统一框架和预训练模型,Amphion推动了音频生成领域的研究和应用发展。 AI项目与工具 2025年06月12日 63 点赞 0 评论 416 浏览