OmniVision是一款专为边缘设备设计的紧凑型多模态模型,具备968M参数量。该模型基于LLaVA架构优化,通过减少图像token数量,显著降低了计算延迟与成本。OmniVision采用可信数据集进行深度偏好优化(DPO),确保结果的可靠性,适用于视觉问答及图像描述等多种应用场景。 OmniVision的核心技术在于其高效的多模态架构,结合了Qwen2.5-0.5B-Instruct语言模型与SigLIP-400M视觉编码器,并利用MLP投影层实现图像与文本嵌入空间的对齐。此外,OmniVision通过三阶段训练流程(预训练、监督微调与直接偏好优化),提升了模型在视觉与语言任务上的表现。这些特性使得OmniVision能够在资源受限的边缘设备上高效运行。
发表评论 取消回复