语音合成

星声AI

星声AI是一款智能化播客生成工具,支持文字、网页链接或文档输入,自动生成结构完整的播客脚本,并通过高质量语音合成技术转化为自然流畅的音频内容。平台支持中、英、日、韩四国语言,提供多种音色与风格选择,具备音频编辑、内容拆解、多平台发布等功能,适用于知识分享、企业培训、内容创作等多种场景。

Speechki

Speechki 是一款高效文本转语音工具,支持多语言和多种语音选择,具备实时校对、角色管理和精准音频控制功能。用户可通过可视化编辑器灵活调整语速、语调和音高,适用于内容创作、教育、企业营销等多种场景。同时支持与 ChatGPT 集成,提升文本转音频的效率和实用性。

Indic Parler

Indic Parler-TTS 是一款由 Hugging Face 与 AI4Bharat 联合开发的多语言文本到语音模型,支持 20 种印度语言和英语,提供 69 种独特语音。该模型基于深度学习架构,通过描述性文本输入实现对音调、语速、情感等参数的灵活控制,适用于多种语音合成场景。在低资源语言上表现优异,具备高自然度和清晰度的语音输出能力。

Llasa TTS

Llasa TTS是基于LLaMA架构的开源文本转语音模型,支持高质量语音合成、情感表达和音色克隆。采用单层VQ编解码器和Transformer结构,具备多语言支持及长文本处理能力,适用于智能助手、有声读物、游戏娱乐等场景。模型提供不同参数规模版本,支持零样本学习,提升语音自然度和表现力。

IndexTTS

IndexTTS 是一款由 B 站开发的高性能文本转语音系统,专注于中文语音合成,支持拼音纠正、精准停顿控制和高自然度语音输出。采用混合建模方法,结合汉字与拼音,提升发音准确性。系统具备零样本语音克隆能力,音质优秀,广泛应用于内容创作、在线教育、智能客服等领域。训练数据丰富,性能指标优异,包括低字词错误率、高扬声器相似性和高主观音质评分。

All Voice Lab

All Voice Lab是一款基于AI技术的语音创作平台,提供文本转语音、声音克隆、视频翻译、变声等多种功能,支持多语言及多音色转换。平台具备高精度的语音生成能力,可应用于内容创作、视频制作、教育及娱乐等领域,提升内容表现力与国际化传播效率。

Spark

Spark-TTS是一款基于大型语言模型的高效文本转语音工具,支持中英文双语及跨语言合成。它无需额外生成模型,通过LLM预测编码直接生成音频,实现零样本语音克隆。用户可自定义语音参数,如音色、语速等,适用于语音助手、多语言内容创作、智能客服及虚拟角色配音等多种场景。

Asyncflow v1.0

Asyncflow v1.0 是一款基于 AI 的文本转语音工具,支持超过 450 种语音选项,涵盖多种语言和风格。通过 Magic Dust AI 技术,实现快速语音克隆与高质量输出,降低训练成本。提供 API 接口,便于开发集成,适用于播客、广告、教育等多种场景,具备高效、易用和高性价比的特点。

PodAgent

PodAgent是一款由多所高校与企业联合开发的播客生成框架,采用多智能体协作机制,模拟真实脱口秀场景,自动生成高质量对话内容。系统具备声音匹配、语音合成与表现力增强功能,并提供多语言支持和完整播客结构生成能力。同时,PodAgent引入评估指标,确保内容的专业性与多样性,适用于媒体、教育、企业推广等多个领域。

TicVoice 7.0

TicVoice 7.0 是一款基于 Spark-TTS 的语音合成引擎,采用 BiCodec 技术实现音色与语义的精准控制,支持 3 秒语音克隆、多角色、多情绪表达及中英切换,语音自然流畅,接近广播级水平,适用于智能客服、有声书、影视配音等场景。