视觉语言模型

SmolVLA

SmolVLA是Hugging Face开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，可在CPU上运行，单个消费级GPU即可训练，适合在MacBook上部署。它能够处理多模态输入，生成动作序列，并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。

AI项目与工具 2025年06月11日 34 点赞 0 评论 580 浏览

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间，实现从粗粒度到细粒度的信息获取，并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理，具备良好的可扩展性，适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 809 浏览

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型，通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作，如放大区域或选择帧，以捕捉细节。采用两阶段训练方法，结合指令调优和好奇心驱动的强化学习，提升视觉推理性能。在多个基准测试中表现优异，适用于视觉问答、视频理解等任务，广泛应用于科研、教育、工业质检和内容创作等领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 554 浏览

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型，专为高效处理长视频设计。采用混合精度策略，支持在单张A100 GPU上处理长达3小时的视频，提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能，适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能，实现精准且高效的视频分析。

AI项目与工具 2025年06月11日 37 点赞 0 评论 579 浏览

FastVLM

FastVLM是一款高效的视觉语言模型，采用FastViTHD混合视觉编码器，显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时，降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务，具备良好的实用性和扩展性。

AI项目与工具 2025年06月11日 85 点赞 0 评论 677 浏览

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型，支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器，具备强大的图像感知、数学推理和OCR能力。在长上下文（128K）和复杂任务中表现优异，尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 508 浏览

OmniSVG

OmniSVG是复旦大学与StepFun联合开发的全球首个端到端多模态SVG生成模型，基于预训练视觉语言模型，通过创新的SVG标记化技术实现结构与细节的解耦，支持从文本、图像或角色参考生成高质量矢量图形。其训练效率高，支持长序列处理，适用于图标设计、网页开发、游戏角色生成等场景，生成结果具备高度可编辑性和跨平台兼容性。

AI项目与工具 2025年06月12日 90 点赞 0 评论 880 浏览

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型，融合视觉与语言处理能力，支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构，具备多模态理解、多语言处理、文档解析、科学推理等能力，广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略，提升处理效率与准确性。

AI项目与工具 2025年06月12日 78 点赞 0 评论 662 浏览

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统，融合视觉-语言-动作模型，支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力，适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练，结合真实操作与多模态信息，实现高效、灵活的机器人控制。

AI项目与工具 2025年06月12日 17 点赞 0 评论 820 浏览

Proxy Lite

Proxy Lite是一款开源的轻量级视觉语言模型，具有30亿参数，支持自动化网页操作。它通过“观察-思考-工具调用”机制，实现网页交互、数据抓取、表单填写等功能，适用于自动化测试、数据提取和智能任务辅助等场景。该工具资源占用低，可在消费级GPU上高效运行，适合开发者快速部署和使用。

AI项目与工具 2025年06月12日 53 点赞 0 评论 656 浏览

视觉语言模型

首页

视觉语言模型

列表

默认

浏览次数

发布日期