Muyan

简介：Muyan-TTS是一款面向播客场景的开源文本转语音工具，基于超10万小时播客数据训练，支持零样本语音合成与说话人适配，可在0.33秒内生成1秒音频，适合实时与长内容合成。支持本地部署与API调用，应用于播客、有声书、视频配音、AI角色及新闻播报等领域，兼具高效性与灵活性。

AI小编 546 阅读 0 评论 94 点赞

项目地址

Muyan-TTS是什么

Muyan-TTS 是一款专为播客场景设计的开源文本转语音（TTS）模型。该模型基于超过10万小时的播客音频数据进行预训练，具备零样本语音合成能力，无需大量目标说话人语音数据即可生成高质量语音。它支持说话人适配功能，可通过少量参考语音实现个性化语音定制。Muyan-TTS 具有高效的语音生成速度，能够在0.33秒内生成1秒音频，适用于实时应用场景。此外，该工具支持长篇内容的自然连贯合成，如播客和有声书，并提供本地部署与API调用方式，便于集成到各类应用中。

Muyan-TTS的主要功能

零样本语音合成：通过少量参考语音和文本即可生成高质量语音，无需大量目标说话人数据。
说话人适配：基于少量目标说话人语音数据进行微调，实现个性化的语音输出。
快速生成：0.33秒可生成1秒音频，适合实时及批量处理长语音内容。
长内容连贯合成：能够自然流畅地生成播客、有声书等长篇内容。
离线部署友好：支持本地运行，保障数据隐私并降低延迟。

Muyan-TTS的技术原理

框架设计：基于 GPT-SoVITS 框架，采用 Llama-3.2-3B 作为语言模型，结合 SoVITS 进行音频解码。LLM 负责文本与音频 token 的对齐，生成中间表示，由 SoVITS 解码为音频波形。
数据处理：使用超过10万小时的播客音频数据，经过多阶段清洗与格式化，构建高质量的平行语料库。
预训练与微调：LLM 在平行语料库上进行预训练，随后通过监督微调优化模型，提升语音合成的自然度与相似度。
解码器优化：基于 VITS 基础模型进行改进，减少幻觉问题，提高语音生成的稳定性与自然度。
推理加速：采用高效内存管理与并行推理技术，提升推理效率，支持 API 接口，适用于实时应用。

Muyan-TTS的项目地址

GitHub仓库：https://github.com/MYZY-AI/Muyan-TTS
HuggingFace模型库：https://huggingface.co/MYZY-AI/Muyan-TTS
arXiv技术论文：https://arxiv.org/pdf/2504.19146

Muyan-TTS的应用场景

播客和有声书：高效生成长篇内容，提升制作效率。
视频配音：快速生成英文脚本配音，适配不同角色。
AI 角色和语音助手：生成特色语音，增强交互体验。
新闻播报：将文本快速转换为语音，适用于智能设备。
教育和游戏：生成教学语音与游戏旁白，提升学习与娱乐效果。

本文分类：AI项目与工具
本文标签：AI语音合成文本转语音 TTS模型播客工具语音助手人工智能语音生成自然语言处理开源工具音频处理
浏览次数：546 次浏览
发布日期：2025-06-11 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/7872.html

评论列表共有 0 条评论

暂无评论

Muyan

Muyan-TTS是什么

Muyan-TTS的主要功能

Muyan-TTS的技术原理

Muyan-TTS的项目地址

Muyan-TTS的应用场景

ChatTTS

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复