Kokoro-TTS是由hexgrad开发的一款轻量级文本转语音(TTS)模型,拥有8200万参数。该模型基于StyleTTS 2与ISTFTNet的混合架构,采用纯解码器设计,不依赖扩散模型,从而降低了计算复杂度,提升了语音合成效率和实时处理能力。其支持多种语音风格,包括耳语等特殊形式,能够生成自然流畅的语调和韵律,适用于不同场景下的语音表达需求。训练数据涵盖多种授权音频及IPA音素标签,确保了内容的合规性与多样性。目前,Kokoro-TTS支持美国英语和英国英语,并提供10种不同的语音包,覆盖不同性别和语音特征。此外,它具备本地处理能力,无需上传数据至云端,保障了用户的数据安全。开发者可通过API轻松集成到各类应用中,满足从桌面到移动端的多样化需求。
发表评论 取消回复