语音生成 - 智狐AI导航

Text to Bark

Text to Bark 是由 ElevenLabs 推出的全球首个 AI 狗语文本转语音模型，能将文字转化为高度逼真的狗吠声，支持多种犬种选择和语气调整。技术基于深度学习和犬类语言学研究，适用于宠物训练、科研、娱乐及家庭互动等多种场景，具备良好的可扩展性和实用性。

AI项目与工具 2025年06月12日 47 点赞 0 评论 650 浏览

OmniTalker

OmniTalker 是一款由阿里巴巴开发的实时多模态交互技术，支持文本、图像、音频和视频的同步处理，并能生成自然流畅的语音响应。其核心技术包括 Thinker-Talker 架构和 TMRoPE 时间对齐技术，实现音视频精准同步与高效流式处理。适用于智能语音助手、内容创作、教育、客服及工业质检等场景，具有高实时性与稳定性。

AI项目与工具 2025年06月12日 59 点赞 0 评论 641 浏览

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台，基于 AI 技术提供高质量文字转语音服务，支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆，并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景，提升语音内容制作效率。

AI项目与工具 2025年06月11日 96 点赞 0 评论 759 浏览

VITA

VITA-Audio 是一款开源的端到端多模态语音大模型，具备低延迟、高推理效率和多模态交互能力。其核心创新包括轻量级 MCTP 模块和四阶段渐进式训练策略，使模型在语音识别、文本转语音和口语问答等任务中表现优异。支持实时对话、智能客服、教育辅助、医疗辅助及内容创作等多种应用场景，适用于各类语音交互系统。

AI项目与工具 2025年06月11日 19 点赞 0 评论 841 浏览

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具，基于超10万小时播客数据训练，支持零样本语音合成与说话人适配，可在0.33秒内生成1秒音频，适合实时与长内容合成。支持本地部署与API调用，应用于播客、有声书、视频配音、AI角色及新闻播报等领域，兼具高效性与灵活性。

AI项目与工具 2025年06月11日 94 点赞 0 评论 457 浏览

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型，支持零样本语音克隆和高质量语音合成，具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度，适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本，满足不同性能需求。

AI项目与工具 2025年06月11日 33 点赞 0 评论 465 浏览

豆包·语音播客模型

豆包·语音播客模型是字节跳动旗下火山引擎推出的语音播客工具，基于流式模型构建，可将文本秒级转化为双人对话式播客。具有低成本、高时效、强互动特点，解决了传统AI播客内容重复、不够口语化的问题。支持低时延与可打断、深度搜索、高效创作、超长文本转播客等功能，适用于教育、娱乐、心理咨询、内容营销和有声读物制作等场景。

AI项目与工具 2025年06月11日 72 点赞 0 评论 407 浏览

Mobvoi MCP Server

Mobvoi MCP Server是出门问问推出的一站式AI工具，集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能，支持多客户端和多场景应用。基于标准化接口和开源生态，提供高效、灵活的数字生产力解决方案，适用于内容创作、虚拟主播、在线教育等多个领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 468 浏览

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于200万小时音频数据训练，支持13种语言。采用双自回归架构和RLHF技术，生成自然流畅的语音，支持50多种情感和语调标记。具备零样本和少样本语音克隆功能，仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版，满足

AI项目与工具 2025年06月11日 28 点赞 0 评论 593 浏览

创想家

专注于帮助独立视频制作和教程视频制作者高效管理视频制作流，随时随地规划视频内容，提升个体视频制作生产。

视频剪辑 2025年06月05日 79 点赞 0 评论 598 浏览

语音生成

首页

语音生成

列表

默认

浏览次数

发布日期