视觉语言 - 智狐AI导航

Llama 3.2

在图像理解和文本处理任务上展现出卓越的性能，并通过定制化微调和本地部署，推动了AI技术的开放性和可访问性。

Ai平台模型 2026年06月27日 0 点赞 0 评论 337 浏览

ScreenAI

ScreenAI是一款专为理解和处理用户界面（UI）及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系，并生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息，并采用自回归解码器生成自然语言响应。此外，ScreenAI还能适应不同屏幕格式，提供精确的UI导航和内容摘要功能。

AI项目与工具 2024年01月01日 16 点赞 0 评论 868 浏览

Moondream

Moondream是一款小型的开源人工智能视觉语言模型，具有强大的图像处理能力和灵活性，能够在不同设备上运行。它基于Apache 2.0许可证，支持商业使用，并广泛应用于安全监控、无人机和机器人技术以及零售与购物领域。

AI项目与工具 2024年01月01日 84 点赞 0 评论 964 浏览

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型，由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性，能在大量GPU上高效训练，无需梯度检查点。LongVILA通过五阶段训练流程，结合大规模数据集构建和高性能推理，显著提升了长视频字幕的准确性和处理效率。此外，它还支持多种应用场景，包括视频字幕生成、内容分析、视频问答系统等。

AI项目与工具 2025年06月12日 52 点赞 0 评论 554 浏览

Docmatix

Docmatix 是一个专为文档视觉问答任务设计的大规模数据集，包含240万张图像和950万个问题-答案对，源自130万个PDF文档。数据集覆盖广泛，包括扫描图片、PDF文件和数字文档，且具有高质量的问答对。Docmatix 支持模型训练和微调，可用于训练视觉语言模型，提高其在理解和回答与文档内容相关问题方面的性能。应用场景包括自动化客户服务、智能文档分析、教育和学术研究以及业务流程自动化等。

AI项目与工具 2025年06月12日 87 点赞 0 评论 580 浏览

FakeShield

FakeShield是一款由北京大学研发的多模态大型语言模型框架，主要用于检测和定位图像篡改。它通过结合视觉与文本信息，生成篡改区域掩码并提供详细的判断依据。其核心模块包括领域标签引导的检测模块和多模态定位模块，支持多种篡改技术的分析，具有较高的准确性与可解释性。FakeShield广泛应用于社交媒体内容审核、法律取证、新闻媒体真实性验证以及版权保护等领域。

AI项目与工具 2025年06月12日 41 点赞 0 评论 740 浏览

MMBench

MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台，旨在全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力。平台包含约600个YouTube视频片段，覆盖16个类别，并配备高质量的人工标注问答对。通过自动化评估机制，MMBench-Video能够有效提升评估的精度和效率，为模型优化和学术研究提供重要支持。

AI项目与工具 2025年06月12日 52 点赞 0 评论 659 浏览

Vision Search Assistant

Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架，旨在提升模型对未知视觉内容的理解能力。它通过网络检索，使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色，支持图像描述生成、网络知识搜索、协作生成等功能，可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。

AI项目与工具 2025年06月12日 100 点赞 0 评论 871 浏览

OmniVision

OmniVision是一款面向边缘设备的紧凑型多模态AI模型，参数量为968M。它基于LLaVA架构优化，能够处理视觉与文本输入，显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能，广泛应用于内容审核、智能助手、视觉搜索等领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 896 浏览

BALROG

BALROG是一款用于评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏环境中推理能力的框架。它通过程序化生成的游戏环境，测试模型的规划、空间推理及探索能力，并提供细粒度的性能指标和公开排行榜，以促进AI技术的发展，适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 572 浏览

视觉语言

首页

视觉语言

列表

默认

浏览次数

发布日期