Speech-02 是由 MiniMax 推出的全新一代文本到语音(TTS)模型。该模型基于自回归 Transformer 架构,支持零样本语音克隆功能,仅需几秒的参考音频即可生成高度相似的目标语音。通过 Flow-VAE 架构优化了语音生成的信息表征能力,从而提升了语音合成的质量与自然度。Speech-02 提供两种版本:Speech-02-HD 专为高保真场景设计,适用于配音和有声读物等对音质要求较高的应用;Speech-02-Turbo 则针对实时交互场景优化,兼顾低延迟与高质量输出。该模型已在 MiniMax Audio 平台及 API 平台上上线。 Speech-02 具备多项核心功能,包括零样本语音克隆、高质量语音合成、多语言支持、个性化语音生成以及情感控制等。其技术原理涵盖自回归 Transformer 架构、可学习的 speaker 编码器、Flow-VAE 架构以及 T2V 框架,实现对语音生成过程的精准控制。该模型可广泛应用于智能语音助手、有声读物、社交媒体、教育产品及智能硬件等多个领域。
发表评论 取消回复