ElevenLabs Flash是由ElevenLabs开发的一款低延迟语音合成模型,专门针对快速对话型人工智能应用设计。该模型提供两种版本:Flash v2仅支持英语,而Flash v2.5则支持32种语言。ElevenLabs Flash通过每两个字符消耗1信用点的方式提供服务,其音质和情感表达相较于Turbo模型稍逊,但在延迟方面表现出色,生成语音的延迟仅为75毫秒(加上应用和网络延迟),特别适用于对实时性要求较高的场景。盲测结果显示,ElevenLabs Flash在超低延迟语音合成领域具有显著优势。
发表评论 取消回复