Spirit LM 是一种由 Meta AI 开发的多模态语言模型,能够处理文本和语音数据,支持跨模态学习。其基础版(BASE)和表达版(EXPRESSIVE)分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别(ASR)、文本到语音(TTS)、语音分类及情感分析等任务,在语音助手、语音转写、有声读物等领域具有广泛应用前景。
Unmute 是 Kyutai 推出的低延迟语音交互系统,专注于语音转文字和文字转语音功能。基于先进 AI 模型,提供实时、高效的语音交互体验,支持用户与 AI 进行语音交流,并能将文字内容快速转换为自然流畅的语音输出。其低延迟处理能力实现无缝交互,具备快速集成、随时打断、10秒生成声音、多样化调整等功能,适用于在线教育、智能客服、语音助手、游戏娱乐和企业会议等场景。