视觉语言模型

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型，融合视觉与语言处理能力，支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构，具备多模态理解、多语言处理、文档解析、科学推理等能力，广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略，提升处理效率与准确性。

AI项目与工具 2025年06月12日 78 点赞 0 评论 740 浏览

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统，融合视觉-语言-动作模型，支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力，适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练，结合真实操作与多模态信息，实现高效、灵活的机器人控制。

AI项目与工具 2025年06月12日 17 点赞 0 评论 912 浏览

Proxy Lite

Proxy Lite是一款开源的轻量级视觉语言模型，具有30亿参数，支持自动化网页操作。它通过“观察-思考-工具调用”机制，实现网页交互、数据抓取、表单填写等功能，适用于自动化测试、数据提取和智能任务辅助等场景。该工具资源占用低，可在消费级GPU上高效运行，适合开发者快速部署和使用。

AI项目与工具 2025年06月12日 53 点赞 0 评论 717 浏览

Flame

Flame是一款开源的多模态AI模型，能够将UI设计截图转换为高质量的现代前端代码。它支持React等主流框架，具备动态交互、组件化开发和高代码质量的特点。Flame通过创新的数据合成方法提升代码多样性与准确性，适用于快速原型开发、提升开发效率及辅助学习等多种场景。其训练数据、模型和测试集均已开源，为前端开发提供了高效的工具支持。

AI项目与工具 2025年06月12日 87 点赞 0 评论 800 浏览

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型，基于 Qwen2.5-VL 架构，结合强化学习优化技术，具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析，支持自然语言指令定位图像目标，并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 759 浏览

SigLIP 2

SigLIP 2 是 Google DeepMind 开发的多语言视觉-语言模型，具有强大的图像与文本对齐能力。它支持多种语言输入，具备零样本分类、图像-文本检索等功能，并通过 Sigmoid 损失函数和自监督学习技术提升训练效率与模型性能。其支持多种分辨率的变体，适用于文档理解、视觉问答及开放词汇任务。该模型基于 Vision Transformer 架构，具备良好的兼容性。

AI项目与工具 2025年06月12日 94 点赞 0 评论 848 浏览

Helix

Helix 是 Figure 公司推出的视觉-语言-动作（VLA）模型，专为人形机器人设计，支持对上半身的高精度、高频次控制，频率达 200Hz。它能基于自然语言指令执行未见过的物品操作，具备强大的泛化能力。系统采用端到端训练方式，可在低功耗设备上运行，适用于多机器人协作、家庭服务、工业自动化等多种场景，具有较高的商业化潜力。

AI项目与工具 2025年06月12日 69 点赞 0 评论 803 浏览

PaliGemma 2 mix

PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型，支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项，适用于不同场景。其基于开源框架开发，易于扩展，可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。

AI项目与工具 2025年06月12日 23 点赞 0 评论 599 浏览

WebLI

WebLI-100B是由Google DeepMind推出的超大规模视觉语言数据集，包含1000亿个图像与文本配对数据，是目前最大的视觉语言数据集之一。其设计旨在提升模型对长尾概念、文化多样性和多语言内容的理解能力。数据集通过网络爬取构建，保留了丰富的语言和文化多样性，支持多模态任务如图像分类、图像描述生成和视觉问答，广泛应用于人工智能研究、工程开发及教育领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 637 浏览

SANA 1.5

SANA 1.5是由英伟达联合多所高校研发的高效线性扩散变换器，专用于文本到图像生成任务。其核心优势包括高效的训练扩展、模型深度剪枝、推理时扩展等技术，能够在不同计算预算下灵活调整模型性能。支持多语言输入，并具备开源特性，适用于创意设计、影视制作、教育等多个领域。实验表明，其生成质量接近行业领先水平，同时显著降低计算成本。

AI项目与工具 2025年06月12日 56 点赞 0 评论 649 浏览

视觉语言模型

首页

视觉语言模型

列表

默认

浏览次数

发布日期