CosyVoice 2.0是阿里巴巴通义实验室发布的一款升级版语音生成大模型。该模型采用有限标量量化技术优化码本利用率,并通过简化文本-语音语言模型架构,增强了多场景语音合成的支持能力。CosyVoice 2.0在发音准确性、音色一致性、韵律及音质等方面均有显著提升,MOS评分从5.4升至5.53,同时实现了更低的首包合成延迟(150ms),适用于实时语音合成场景。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部