Spirit LM

简介：Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI小编 825 阅读 0 评论 40 点赞

项目地址

Spirit LM 是由 Meta AI 团队开发的一种多模态语言模型，能够无缝整合文本与语音数据。该模型基于一个预训练的文本语言模型，并通过在文本和语音单元上的持续训练扩展至语音模态。Spirit LM 提供两个版本：基础版（BASE）和表达版（EXPRESSIVE）。基础版专注于语音语义单元的处理，而表达版在此基础上增加了音高和风格单元，以增强语音的表达性。在训练过程中，Spirit LM 将语音和文本序列连接成单一的标记集，并采用词级交错方法实现对齐。这种设计使模型既能生成具备文本模型语义能力的文本，也能生成富有语音模型表达能力的语音。此外，Spirit LM 能够在少量样本条件下实现跨模态学习，支持诸如自动语音识别（ASR）、文本到语音（TTS）以及语音分类等多种任务。

本文分类：AI项目与工具
本文标签：多模态语言模型文本到语音自动语音识别跨模态学习情感分析语音助手 GitHub 音高建模风格单元
浏览次数：825 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10894.html

评论列表共有 0 条评论

暂无评论

Spirit LM

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复