文本转语音

Avatar AI

人工智能成像模型,可以从你的照片中生成逼真的4K头像。它将方形头像扩展为2:3的4K全尺寸AI照片,并可以将其动画化为带有文本转语音或您自己的声音的AI视频。

Text To Speech

构建自然说话的应用和服务,从 147 种语言和变体中选择 456 种语音

Spark

Spark-TTS是一款基于大型语言模型的高效文本转语音工具,支持中英文双语及跨语言合成。它无需额外生成模型,通过LLM预测编码直接生成音频,实现零样本语音克隆。用户可自定义语音参数,如音色、语速等,适用于语音助手、多语言内容创作、智能客服及虚拟角色配音等多种场景。

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型,支持零样本语音克隆和高质量语音合成,具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度,适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本,满足不同性能需求。

Indic Parler

Indic Parler-TTS 是一款由 Hugging Face 与 AI4Bharat 联合开发的多语言文本到语音模型,支持 20 种印度语言和英语,提供 69 种独特语音。该模型基于深度学习架构,通过描述性文本输入实现对音调、语速、情感等参数的灵活控制,适用于多种语音合成场景。在低资源语言上表现优异,具备高自然度和清晰度的语音输出能力。

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型,利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务,如音乐创作、声音效果设计及语音合成,并可通过ComposableART技术实现对声音属性的精细调控。此外,Fugatto擅长生成动态变化的声音景观,广泛应用于音乐创作、声音设计及广告音频制作等领域。

酷音

酷音网是一个真人配音与AI配音、视频拍摄与制作、音乐作词与谱曲、视频策划与创意等领域的创作、交易、推广运营于一体的音视频交易服务平台,致力于打造专注音视频领域的商业生态圈。

Chatterbox

Chatterbox是Resemble AI推出的开源文本转语音(TTS)模型,基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练。它支持零样本语音克隆,仅需5秒参考音频即可生成高度逼真的个性化语音,并具备情感夸张控制功能,可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用于交互式应用。此外,它采用安全水印技术防止滥用,适用于内容

123APPS

一个可以在线编辑各种类型媒体文件的工具,包括视频、音频文件、PDF 和图像的转换,比如视频编辑器、屏幕录像机、文本到语音转换器、PDF 转换器和编辑器、音频编辑器、图像转换器、存档提取器和其他实用工具。

HeyGen

HeyGen是一款AI数字人视频创作平台,具备即时数字人视频制作、多语言翻译配音、语音克隆、文本转语音等功能。它提供了丰富的视频模板库和强大的素材库,支持用户轻松创建高质量的数字人视频。HeyGen适用于多种场景,包括讲解说明、市场营销和企业培训,助力用户提高工作效率和视频质量。