NEXUS-O是由HiThink研究院、英国帝国理工学院、浙江大学、复旦大学、微软及Meta AI等机构联合研发的多模态AI模型。该模型具备对语言、音频和视觉信息的全面感知与交互能力,支持多种输入形式(如音频、图像、视频和文本)并输出相应的结果。其核心基于视觉语言模型进行预训练,并通过高质量合成音频数据提升三模态对齐效果。NEXUS-O引入了专门的音频测试平台Nexus-O-audio,用于评估模型在实际场景中的鲁棒性。在视觉理解、音频问答、语音识别和语音翻译等任务中表现优异,展示了高效性和实用性。 NEXUS-O具备多项功能,包括语音处理、视觉理解与交互、语言推理以及跨模态对齐与理解。其技术架构包含改进的Vision Transformer视觉编码器、基于Whisper-large-v3的音频编码与解码系统,以及以Qwen2.5-VL-7B为基础的语言模型。通过多模态对齐与预训练、数据合成与增强、以及多模态任务的联合训练,提升了模型的综合性能。此外,NEXUS-O还采用表示空间对齐分析方法优化多模态特征融合效果。 NEXUS-O的应用场景广泛,涵盖智能语音交互、视频会议协作、教育与内容创作、智能驾驶与安防、公共服务与医疗健康等多个领域。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部