Ultravox 是一款创新的多模态大型语言模型(LLM),能够直接解析文本和人类语音,无需依赖独立的自动语音识别(ASR)阶段。通过多模态投影器技术,音频数据被转换为高维空间表示,并与 LLM 直接耦合,从而显著降低处理延迟并提升响应速度。该模型在 Llama 3、Mistral 和 Gemma 等基础模型上进行了训练,具备高效处理音频输入的能力。Ultravox 0.4 版本的初始令牌生成时间为约 150 毫秒,每秒可处理大约 60 个令牌。未来版本计划加入直接生成语音流的功能,以进一步优化人机交互体验。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部