视觉语言模型

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型，专为高效处理长视频设计。采用混合精度策略，支持在单张A100 GPU上处理长达3小时的视频，提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能，适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能，实现精准且高效的视频分析。

AI项目与工具 2025年06月11日 37 点赞 0 评论 437 浏览

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型，通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作，如放大区域或选择帧，以捕捉细节。采用两阶段训练方法，结合指令调优和好奇心驱动的强化学习，提升视觉推理性能。在多个基准测试中表现优异，适用于视觉问答、视频理解等任务，广泛应用于科研、教育、工业质检和内容创作等领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 420 浏览

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间，实现从粗粒度到细粒度的信息获取，并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理，具备良好的可扩展性，适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 668 浏览

SmolVLA

SmolVLA是Hugging Face开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，可在CPU上运行，单个消费级GPU即可训练，适合在MacBook上部署。它能够处理多模态输入，生成动作序列，并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。

AI项目与工具 2025年06月11日 34 点赞 0 评论 437 浏览

ScreenAI

ScreenAI是一款专为理解和处理用户界面（UI）及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系，并生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息，并采用自回归解码器生成自然语言响应。此外，ScreenAI还能适应不同屏幕格式，提供精确的UI导航和内容摘要功能。

AI项目与工具 2024年01月01日 16 点赞 0 评论 627 浏览

Moondream

Moondream是一款小型的开源人工智能视觉语言模型，具有强大的图像处理能力和灵活性，能够在不同设备上运行。它基于Apache 2.0许可证，支持商业使用，并广泛应用于安全监控、无人机和机器人技术以及零售与购物领域。

AI项目与工具 2024年01月01日 84 点赞 0 评论 663 浏览

Llama 3.2

在图像理解和文本处理任务上展现出卓越的性能，并通过定制化微调和本地部署，推动了AI技术的开放性和可访问性。

Ai平台模型 1970年01月01日 0 点赞 0 评论 144 浏览

视觉语言模型

首页

视觉语言模型

列表

默认

浏览次数

发布日期

ViLAMP

Pixel Reasoner

VRAG

SmolVLA

ScreenAI

Moondream

Llama 3.2

视觉语言模型 首页 视觉语言模型

列表 默认 浏览次数 发布日期

ViLAMP

Pixel Reasoner

VRAG

SmolVLA

ScreenAI

Moondream

Llama 3.2

视觉语言模型

首页

视觉语言模型

列表

默认

浏览次数

发布日期