文本转语音

Chatterbox

Chatterbox是Resemble AI推出的开源文本转语音(TTS)模型,基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练。它支持零样本语音克隆,仅需5秒参考音频即可生成高度逼真的个性化语音,并具备情感夸张控制功能,可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用于交互式应用。此外,它采用安全水印技术防止滥用,适用于内容

Fish Audio

Fish Audio是一款生成式AI文本转语音(TTS)和声音克隆平台,支持多种语言和声音风格,可将文本转换为自然流畅的语音。用户可上传音频样本克隆特定人物的声音,并通过API接口集成到应用程序中。Fish Audio适用于视频制作、有声读物、语音助手、教育与培训以及娱乐创意等领域,满足个性化语音内容生成需求。

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于200万小时音频数据训练,支持13种语言。采用双自回归架构和RLHF技术,生成自然流畅的语音,支持50多种情感和语调标记。具备零样本和少样本语音克隆功能,仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版,满足

Eleven v3

Eleven v3是ElevenLabs推出的先进文本转语音模型,支持情感和语调的精确控制,通过内联音频标签实现多样化的表达。它支持多说话人对话,能模拟真实交谈中的语气变化,覆盖超70种语言,适用于媒体影视配音、有声读物制作、游戏开发和教育等领域,提供生动、真实的声音体验。

鸭鸭配音

一个在线配音网站,是目前为数不多的免费的在线文字转语音的配音神器,用户只需输入文本,即可生成高度拟人的智能配音。

Clipchamp

Clipchamp,可帮助你创作内容的智能工具,有自动生成字幕、文本转语音、调整视频大小等功能,现在是Microsoft旗下公司。

Nova A.I.

一款简单却强大的在线视频编辑和日志软件,由计算机视觉视频搜索引擎提供支持。

123APPS

一个可以在线编辑各种类型媒体文件的工具,包括视频、音频文件、PDF 和图像的转换,比如视频编辑器、屏幕录像机、文本到语音转换器、PDF 转换器和编辑器、音频编辑器、图像转换器、存档提取器和其他实用工具。

Futuretools工具

FutureTools收集并组织了所有最好的AI工具,所以你也可以成为超人!

WhisperFusion

一个基于WhisperLive把声音转文字和WhisperSpeech理解这些文字的能力构建。能够与AI聊天机器人进行超低延迟对话。