OmniVision

简介：OmniVision是一款面向边缘设备的紧凑型多模态AI模型，参数量为968M。它基于LLaVA架构优化，能够处理视觉与文本输入，显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能，广泛应用于内容审核、智能助手、视觉搜索等领域。

AI小编 901 阅读 0 评论 37 点赞

官网地址

OmniVision是一款专为边缘设备设计的紧凑型多模态模型，具备968M参数量。该模型基于LLaVA架构优化，通过减少图像token数量，显著降低了计算延迟与成本。OmniVision采用可信数据集进行深度偏好优化（DPO），确保结果的可靠性，适用于视觉问答及图像描述等多种应用场景。 OmniVision的核心技术在于其高效的多模态架构，结合了Qwen2.5-0.5B-Instruct语言模型与SigLIP-400M视觉编码器，并利用MLP投影层实现图像与文本嵌入空间的对齐。此外，OmniVision通过三阶段训练流程（预训练、监督微调与直接偏好优化），提升了模型在视觉与语言任务上的表现。这些特性使得OmniVision能够在资源受限的边缘设备上高效运行。

本文分类：AI项目与工具
本文标签：多模态模型边缘计算视觉问答图像描述深度偏好优化 LLaVA架构端到端视觉语言理解计算成本优化
浏览次数：901 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10364.html

上一篇 > Edimakor
下一篇 > Thinking Claude

评论列表共有 0 条评论

暂无评论

OmniVision

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复