声音克隆

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型,能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出,可分别生成人声与伴奏,便于后期编辑。SongGen通过创新的音频标记化和训练策略,显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准,适用于音乐创作、视频配乐、教育辅助等多个领域。

Heygem

Heygem是一款由硅基智能推出的开源数字人模型,支持Windows系统。它可通过1秒视频或照片快速生成数字人形象和声音,30秒内完成克隆,60秒合成4K视频。具备多语言支持、100%口型匹配、低配置运行等优势,适用于内容创作、教育、直播、影视及客服等多个领域,提供高效、低成本的数字人解决方案。

MiniMax MCP Server

MiniMax MCP Server 是一款基于 MCP 协议的多模态生成服务器,支持视频、图像、语音及声音克隆等功能。其具备高分辨率输出、自然语音生成与声音克隆能力,兼容多种主流客户端。平台采用客户端-服务器架构,结合 RAG 技术提升响应准确性,适用于教学、游戏开发、内容创作等多个领域。

A2E

A2E是一款基于AI技术的数字人视频创作平台,支持通过照片、视频或文本生成高度逼真的虚拟形象,具备声音克隆、多语言翻译、视频生成及形象换脸等功能。适用于内容创作、教育、营销等多个领域,帮助用户降低创作门槛,提升内容效率与表现力。

BoomCut

BoomCut是小影科技推出的AI视频本地化工具,支持视频换脸、多语言口播、字幕翻译、声音克隆及字幕擦除等功能,适用于跨境营销和多语言内容制作。用户可通过简单操作生成高质量视频,降低制作成本,提升内容传播效率。适用于广告投放、市场拓展及个性化营销场景。

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台,基于 AI 技术提供高质量文字转语音服务,支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆,并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景,提升语音内容制作效率。

Mobvoi MCP Server

Mobvoi MCP Server是出门问问推出的一站式AI工具,集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能,支持多客户端和多场景应用。基于标准化接口和开源生态,提供高效、灵活的数字生产力解决方案,适用于内容创作、虚拟主播、在线教育等多个领域。

Fish Audio

Fish Audio是一款生成式AI文本转语音(TTS)和声音克隆平台,支持多种语言和声音风格,可将文本转换为自然流畅的语音。用户可上传音频样本克隆特定人物的声音,并通过API接口集成到应用程序中。Fish Audio适用于视频制作、有声读物、语音助手、教育与培训以及娱乐创意等领域,满足个性化语音内容生成需求。

YouDub

一款开源的多语言AI配音和视频翻译工具,优质视频中文化工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。

码多多AI数字人源码系统

一站式AI数字人视频制作源码系统,支持真人声音克隆和真人形象克隆,只需随意上传一段真人视频,即可快速完成声音以及形象克隆。