AI语音

IndexTTS

IndexTTS 是一款由 B 站开发的高性能文本转语音系统,专注于中文语音合成,支持拼音纠正、精准停顿控制和高自然度语音输出。采用混合建模方法,结合汉字与拼音,提升发音准确性。系统具备零样本语音克隆能力,音质优秀,广泛应用于内容创作、在线教育、智能客服等领域。训练数据丰富,性能指标优异,包括低字词错误率、高扬声器相似性和高主观音质评分。

Llasa TTS

Llasa TTS是基于LLaMA架构的开源文本转语音模型,支持高质量语音合成、情感表达和音色克隆。采用单层VQ编解码器和Transformer结构,具备多语言支持及长文本处理能力,适用于智能助手、有声读物、游戏娱乐等场景。模型提供不同参数规模版本,支持零样本学习,提升语音自然度和表现力。

Indic Parler

Indic Parler-TTS 是一款由 Hugging Face 与 AI4Bharat 联合开发的多语言文本到语音模型,支持 20 种印度语言和英语,提供 69 种独特语音。该模型基于深度学习架构,通过描述性文本输入实现对音调、语速、情感等参数的灵活控制,适用于多种语音合成场景。在低资源语言上表现优异,具备高自然度和清晰度的语音输出能力。

Speechki

Speechki 是一款高效文本转语音工具,支持多语言和多种语音选择,具备实时校对、角色管理和精准音频控制功能。用户可通过可视化编辑器灵活调整语速、语调和音高,适用于内容创作、教育、企业营销等多种场景。同时支持与 ChatGPT 集成,提升文本转音频的效率和实用性。

TurboTTS

TurboTTS是一款支持多语言的在线文本转语音工具,提供300多种真实语音选择,生成自然流畅的语音效果。适用于短视频、教育、广告及播客等多种场景,操作简单,支持多种音频格式下载,并可合法用于商业用途。凭借AI技术,用户能高效完成语音内容制作,满足多样化需求。

Zonos

Zonos是一款由Zyphra开发的高保真文本到语音(TTS)模型,支持零样本语音克隆和多语言生成,具备精细的情感与语音参数控制能力。其采用Transformer和SSM混合架构,基于大规模语音数据训练,适用于有声读物、虚拟助手、多媒体创作及无障碍技术等多个领域。模型开源且支持实时语音生成,具有广泛的应用潜力。

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

Hibiki

Hibiki是一款由Kyutai Labs开发的开源语音翻译解码器,支持实时语音到语音(S2ST)和语音到文本(S2TT)的翻译。其基于多流语言模型架构,结合弱监督学习和上下文对齐技术,实现低延迟、高保真度的翻译效果。适用于国际会议、在线教育、旅游、新闻采访及客户服务等场景,具备良好的实用性和可扩展性。

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统,基于大量中文语音数据训练,支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能,适用于智能助手、内容创作及无障碍通信等场景,技术上融合了语音-文本联合建模与多阶段训练策略,提升语音表现力与智能化水平。

BoldVoice

BoldVoice 是一款专注于英语发音训练的工具,结合专业口音课程与AI语音分析技术,帮助非英语母语者提升发音准确性和口语自信。用户可通过录音获得实时反馈与改进建议,并根据个人母语背景定制学习计划。应用还提供发音测试、口音对比和多场景练习功能,适用于职场、考试、日常交流及表演等领域,有效提升英语口语能力。