视觉语言 - 智狐AI导航

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型，融合视觉与语言处理能力，支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构，具备多模态理解、多语言处理、文档解析、科学推理等能力，广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略，提升处理效率与准确性。

AI项目与工具 2025年06月12日 78 点赞 0 评论 662 浏览

FakeShield

FakeShield是一款由北京大学研发的多模态大型语言模型框架，主要用于检测和定位图像篡改。它通过结合视觉与文本信息，生成篡改区域掩码并提供详细的判断依据。其核心模块包括领域标签引导的检测模块和多模态定位模块，支持多种篡改技术的分析，具有较高的准确性与可解释性。FakeShield广泛应用于社交媒体内容审核、法律取证、新闻媒体真实性验证以及版权保护等领域。

AI项目与工具 2025年06月12日 41 点赞 0 评论 657 浏览

Proxy Lite

Proxy Lite是一款开源的轻量级视觉语言模型，具有30亿参数，支持自动化网页操作。它通过“观察-思考-工具调用”机制，实现网页交互、数据抓取、表单填写等功能，适用于自动化测试、数据提取和智能任务辅助等场景。该工具资源占用低，可在消费级GPU上高效运行，适合开发者快速部署和使用。

AI项目与工具 2025年06月12日 53 点赞 0 评论 656 浏览

SmolVLM是一款由Hugging Face开发的轻量级视觉语言模型，专为设备端推理设计。该模型具有三个版本，包括SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct，分别适用于不同的应用场景。SmolVLM借鉴了Idefics3的理念，采用SmolLM2 1.7B作为语言主干，并通过像素混洗技术提升视觉信息的压缩效率。其训练数据集包括Cauldron和

AI项目与工具 2025年06月12日 62 点赞 0 评论 612 浏览

SmolVLA

SmolVLA是Hugging Face开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，可在CPU上运行，单个消费级GPU即可训练，适合在MacBook上部署。它能够处理多模态输入，生成动作序列，并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。

AI项目与工具 2025年06月11日 34 点赞 0 评论 580 浏览

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型，专为高效处理长视频设计。采用混合精度策略，支持在单张A100 GPU上处理长达3小时的视频，提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能，适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能，实现精准且高效的视频分析。

AI项目与工具 2025年06月11日 37 点赞 0 评论 579 浏览

MMBench

MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台，旨在全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力。平台包含约600个YouTube视频片段，覆盖16个类别，并配备高质量的人工标注问答对。通过自动化评估机制，MMBench-Video能够有效提升评估的精度和效率，为模型优化和学术研究提供重要支持。

AI项目与工具 2025年06月12日 52 点赞 0 评论 577 浏览

SANA 1.5

SANA 1.5是由英伟达联合多所高校研发的高效线性扩散变换器，专用于文本到图像生成任务。其核心优势包括高效的训练扩展、模型深度剪枝、推理时扩展等技术，能够在不同计算预算下灵活调整模型性能。支持多语言输入，并具备开源特性，适用于创意设计、影视制作、教育等多个领域。实验表明，其生成质量接近行业领先水平，同时显著降低计算成本。

AI项目与工具 2025年06月12日 56 点赞 0 评论 571 浏览

WebLI

WebLI-100B是由Google DeepMind推出的超大规模视觉语言数据集，包含1000亿个图像与文本配对数据，是目前最大的视觉语言数据集之一。其设计旨在提升模型对长尾概念、文化多样性和多语言内容的理解能力。数据集通过网络爬取构建，保留了丰富的语言和文化多样性，支持多模态任务如图像分类、图像描述生成和视觉问答，广泛应用于人工智能研究、工程开发及教育领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 566 浏览

Vision Parse

Vision Parse 是一款开源工具，旨在通过视觉语言模型将 PDF 文件转换为 Markdown 格式。它具备智能识别和提取 PDF 内容的能力，包括文本和表格，并能保持原有格式与结构。此外，Vision Parse 支持多种视觉语言模型，确保解析的高精度与高速度。其应用场景广泛，涵盖学术研究、法律文件处理、技术支持文档以及电子书制作等领域。

AI项目与工具 2025年06月12日 72 点赞 0 评论 561 浏览

视觉语言

首页

视觉语言

列表

默认

浏览次数

发布日期