CosyVoice 2.0

简介：CosyVoice 2.0是一款基于深度学习的语音生成大模型，通过有限标量量化技术和新型架构设计，在发音准确性、音色一致性和韵律表达方面表现出色。其支持流式推理，延迟低至150ms，广泛应用于智能助手、有声读物、视频配音及语言学习等领域，同时具备多语言支持和情感控制等功能。

AI小编 666 阅读 0 评论 10 点赞

项目地址

CosyVoice 2.0是阿里巴巴通义实验室发布的一款升级版语音生成大模型。该模型采用有限标量量化技术优化码本利用率，并通过简化文本-语音语言模型架构，增强了多场景语音合成的支持能力。CosyVoice 2.0在发音准确性、音色一致性、韵律及音质等方面均有显著提升，MOS评分从5.4升至5.53，同时实现了更低的首包合成延迟（150ms），适用于实时语音合成场景。

本文分类：AI项目与工具
本文标签：语音合成流式推理发音准确性音色一致性多语言支持情感控制实时应用自然语言理解智能交互大规模模型
浏览次数：666 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9886.html

评论列表共有 0 条评论

暂无评论

CosyVoice 2.0

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复