Llasa TTS是由香港科技大学基于LLaMA架构开发的开源文本转语音(TTS)模型,具备高质量语音合成与音色克隆能力。该模型采用单层向量量化(VQ)编解码器和单一Transformer结构,与标准LLaMA模型保持一致,能够生成自然流畅、富有情感的语音输出。Llasa TTS支持多语言合成,并提供1B、3B和8B参数版本,适用于多种应用场景。其在训练和推理阶段均表现出色,通过扩展计算资源提升语音的自然度、韵律准确性和情感表达能力。此外,Llasa TTS支持零样本学习和长文本处理,用户仅需少量音频即可实现个性化语音克隆。
发表评论 取消回复