Speech

简介：Speech-02 是 MiniMax 推出的先进文本到语音模型，支持零样本语音克隆和高质量语音合成，具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度，适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本，满足不同性能需求。

AI小编 542 阅读 0 评论 33 点赞

官网地址

Speech-02 是由 MiniMax 推出的全新一代文本到语音（TTS）模型。该模型基于自回归 Transformer 架构，支持零样本语音克隆功能，仅需几秒的参考音频即可生成高度相似的目标语音。通过 Flow-VAE 架构优化了语音生成的信息表征能力，从而提升了语音合成的质量与自然度。Speech-02 提供两种版本：Speech-02-HD 专为高保真场景设计，适用于配音和有声读物等对音质要求较高的应用；Speech-02-Turbo 则针对实时交互场景优化，兼顾低延迟与高质量输出。该模型已在 MiniMax Audio 平台及 API 平台上上线。 Speech-02 具备多项核心功能，包括零样本语音克隆、高质量语音合成、多语言支持、个性化语音生成以及情感控制等。其技术原理涵盖自回归 Transformer 架构、可学习的 speaker 编码器、Flow-VAE 架构以及 T2V 框架，实现对语音生成过程的精准控制。该模型可广泛应用于智能语音助手、有声读物、社交媒体、教育产品及智能硬件等多个领域。

本文分类：AI项目与工具
本文标签：AI语音合成零样本克隆多语言支持高质量语音 TTS模型语音生成情感控制智能助手有声读物文本转语音
浏览次数：542 次浏览
发布日期：2025-06-11 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/7826.html

上一篇 > Shadow
下一篇 > Challympics（赛林匹克）

评论列表共有 0 条评论

暂无评论

Speech

ChatTTS

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复