Ola是由清华大学、腾讯Hunyuan研究团队与新加坡国立大学S-Lab联合研发的全模态语言模型。该模型采用渐进式模态对齐策略,逐步扩展其支持的输入模态,从文本和图像开始,逐步引入语音和视频数据,从而实现多模态信息的深度融合与理解。Ola具备处理文本、图像、视频及音频等全模态输入的能力,并通过逐句解码方案优化流式语音生成,提升交互体验。在技术架构上,Ola融合了视觉编码器、音频编码器、文本解码器和语音解码器,结合局部-全局注意力池化等技术,显著提升了多模态任务的处理效率与准确性。Ola已在多个基准测试中展现出卓越性能,部分任务表现可媲美专业单模态模型。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部