语音生成 - 智狐AI导航

Text to Bark

Text to Bark 是由 ElevenLabs 推出的全球首个 AI 狗语文本转语音模型，能将文字转化为高度逼真的狗吠声，支持多种犬种选择和语气调整。技术基于深度学习和犬类语言学研究，适用于宠物训练、科研、娱乐及家庭互动等多种场景，具备良好的可扩展性和实用性。

AI项目与工具 2025年06月12日 47 点赞 0 评论 650 浏览

Actor Mode

Actor Mode 是由 ElevenLabs 开发的 AI 语音生成工具，支持用户通过自身声音生成风格一致的语音内容。它具备多语言支持、语音属性调节、即时生成等功能，适用于有声读物、视频配音、虚拟助手等多个领域。用户可通过录制或上传音频，让 AI 提取语音特征并生成符合要求的语音输出，提高创作效率与个性化表达。

AI项目与工具 2025年06月12日 87 点赞 0 评论 731 浏览

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统，采用轻量级扩散模型，支持中英文及混合语音合成，具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模，可快速生成高质量语音，适用于教育、内容制作、语音交互等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 652 浏览

EmotiVoice

EmotiVoice是网易有道推出的开源文本到语音系统，支持中英文及2000+音色，能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能，提供Web界面和API接口，适用于有声读物、智能助手、教育、客服等场景，技术上支持高效部署与模型微调。

AI项目与工具 2025年06月12日 30 点赞 0 评论 673 浏览

Noiz AI

Noiz AI 是一款基于自研大模型的 AI 语音合成与克隆工具，支持 3-10 秒音频快速生成逼真语音模型，适用于 TTS、视频配音和多语言翻译。具备情感化语音输出与一键语言转换功能，广泛应用于内容创作、教育、商业及娱乐等领域，提升内容表达效果与国际化传播能力。

AI项目与工具 2025年06月12日 47 点赞 0 评论 601 浏览

Asyncflow v1.0

Asyncflow v1.0 是一款基于 AI 的文本转语音工具，支持超过 450 种语音选项，涵盖多种语言和风格。通过 Magic Dust AI 技术，实现快速语音克隆与高质量输出，降低训练成本。提供 API 接口，便于开发集成，适用于播客、广告、教育等多种场景，具备高效、易用和高性价比的特点。

AI项目与工具 2025年06月12日 72 点赞 0 评论 593 浏览

Spark

Spark-TTS是一款基于大型语言模型的高效文本转语音工具，支持中英文双语及跨语言合成。它无需额外生成模型，通过LLM预测编码直接生成音频，实现零样本语音克隆。用户可自定义语音参数，如音色、语速等，适用于语音助手、多语言内容创作、智能客服及虚拟角色配音等多种场景。

AI项目与工具 2025年06月12日 47 点赞 0 评论 504 浏览

Llasa TTS

Llasa TTS是基于LLaMA架构的开源文本转语音模型，支持高质量语音合成、情感表达和音色克隆。采用单层VQ编解码器和Transformer结构，具备多语言支持及长文本处理能力，适用于智能助手、有声读物、游戏娱乐等场景。模型提供不同参数规模版本，支持零样本学习，提升语音自然度和表现力。

AI项目与工具 2025年06月12日 71 点赞 0 评论 636 浏览

Indic Parler

Indic Parler-TTS 是一款由 Hugging Face 与 AI4Bharat 联合开发的多语言文本到语音模型，支持 20 种印度语言和英语，提供 69 种独特语音。该模型基于深度学习架构，通过描述性文本输入实现对音调、语速、情感等参数的灵活控制，适用于多种语音合成场景。在低资源语言上表现优异，具备高自然度和清晰度的语音输出能力。

AI项目与工具 2025年06月12日 55 点赞 0 评论 440 浏览

Zonos

Zonos是一款由Zyphra开发的高保真文本到语音（TTS）模型，支持零样本语音克隆和多语言生成，具备精细的情感与语音参数控制能力。其采用Transformer和SSM混合架构，基于大规模语音数据训练，适用于有声读物、虚拟助手、多媒体创作及无障碍技术等多个领域。模型开源且支持实时语音生成，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 69 点赞 0 评论 513 浏览

语音生成

首页

语音生成

列表

默认

浏览次数

发布日期