Spirit LM 是由 Meta AI 团队开发的一种多模态语言模型,能够无缝整合文本与语音数据。该模型基于一个预训练的文本语言模型,并通过在文本和语音单元上的持续训练扩展至语音模态。Spirit LM 提供两个版本:基础版(BASE)和表达版(EXPRESSIVE)。基础版专注于语音语义单元的处理,而表达版在此基础上增加了音高和风格单元,以增强语音的表达性。在训练过程中,Spirit LM 将语音和文本序列连接成单一的标记集,并采用词级交错方法实现对齐。这种设计使模型既能生成具备文本模型语义能力的文本,也能生成富有语音模型表达能力的语音。此外,Spirit LM 能够在少量样本条件下实现跨模态学习,支持诸如自动语音识别(ASR)、文本到语音(TTS)以及语音分类等多种任务。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部