视觉理解 - 智狐AI导航

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器，支持视觉生成与理解任务。其采用多码本量化技术，将视觉特征分割并独立量化，显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率，图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块，广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

AI项目与工具 2025年06月11日 22 点赞 0 评论 490 浏览

xGen

xGen-MM是一款由Salesforce开发的开源多模态AI模型，具备处理文本和图像等数据类型的能力。该模型通过学习大量图像和文字信息，在视觉语言任务中表现出色，并通过开源模型、数据集和微调代码库促进模型性能的提升。xGen-MM具有多模态理解、大规模数据学习、高性能生成、开源可访问和微调能力等特点。其应用场景广泛，包括图像描述生成、视觉问答、文档理解、内容创作和信息检索等。

AI项目与工具 2025年06月12日 57 点赞 0 评论 557 浏览

NEXUS

NEXUS-O是一款由多家知名机构联合开发的多模态AI模型，能够处理音频、图像、视频和文本等多种输入，并以相应形式输出结果。它在视觉理解、音频问答、语音识别和翻译等方面表现出色，具备强大的跨模态对齐与交互能力。模型基于视觉语言预训练，结合高质量音频数据提升性能，并通过多模态任务联合训练增强泛化能力。适用于智能语音助手、视频会议、教育、智能驾驶、医疗健康等多个领域。

AI项目与工具 2025年06月12日 84 点赞 0 评论 575 浏览

QVQ

QVQ是一个基于Qwen2-VL-72B的开源多模态推理模型，擅长处理文本、图像等多模态数据，具备强大的视觉理解和复杂问题解决能力。它在数学和科学领域的视觉推理任务中表现出色，但在实际应用中仍需解决语言切换、递归推理及图像细节关注等问题。QVQ可广泛应用于教育、自动驾驶、医疗图像分析、安全监控及客户服务等领域。

AI项目与工具 2025年06月12日 70 点赞 0 评论 597 浏览

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架，通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间，使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本，提升视觉生成与理解性能，并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用，适用于创意设计、内容创作及智能交互等领域。

AI项目与工具 2025年06月12日 82 点赞 0 评论 605 浏览

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型，通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作，如放大区域或选择帧，以捕捉细节。采用两阶段训练方法，结合指令调优和好奇心驱动的强化学习，提升视觉推理性能。在多个基准测试中表现优异，适用于视觉问答、视频理解等任务，广泛应用于科研、教育、工业质检和内容创作等领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 635 浏览

VITRON

VITRON是一款由多家顶尖机构联合研发的像素级视觉大型语言模型，具备强大的图像与视频处理能力，涵盖理解、生成、分割及编辑等功能。它融合了编码器-LLM-解码器架构、视觉-语言编码和视觉专家系统，支持多种视觉任务，广泛应用于图像编辑、视频创作、教育辅助、电商营销和新闻报道等领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 641 浏览

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面（GUI）的智能代理模型，具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则，即可实现端到端的GUI任务自动化，适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术，支持高效的界面交互与精准的视觉定位。

AI项目与工具 2025年06月11日 31 点赞 0 评论 680 浏览

Sa2VA

Sa2VA是由字节跳动联合多所高校开发的多模态大语言模型，结合SAM2与LLaVA技术，实现对图像和视频的密集、细粒度理解。它支持指代分割、视觉对话、视觉提示理解等多种任务，具备零样本推理能力和复杂场景下的高精度分割效果。适用于视频编辑、智能监控、机器人交互、内容创作及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 697 浏览

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型，擅长处理图像与文本信息，具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异，支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术，提升推理准确性与可解释性，适用于科研、教育、医疗及自动驾驶等场景。

AI项目与工具 2025年06月12日 92 点赞 0 评论 699 浏览

视觉理解

首页

视觉理解

列表

默认

浏览次数

发布日期