视觉语言 - 智狐AI导航

SigLIP 2

SigLIP 2 是 Google DeepMind 开发的多语言视觉-语言模型，具有强大的图像与文本对齐能力。它支持多种语言输入，具备零样本分类、图像-文本检索等功能，并通过 Sigmoid 损失函数和自监督学习技术提升训练效率与模型性能。其支持多种分辨率的变体，适用于文档理解、视觉问答及开放词汇任务。该模型基于 Vision Transformer 架构，具备良好的兼容性。

AI项目与工具 2025年06月12日 94 点赞 0 评论 781 浏览

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型，通过“扩展-压缩”策略优化处理高分辨率图像和长视频，兼具效率与准确性。它在图像和视频基准测试中表现优异，支持时间定位、机器人导航和医疗成像等应用场景，并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

AI项目与工具 2025年06月12日 68 点赞 0 评论 747 浏览

SlideChat

SlideChat是一款先进的视觉语言助手，专注于处理和分析千兆像素级别的全切片病理图像。它具备强大的多模态对话能力和复杂指令响应能力，在显微镜检查、诊断等领域展现出卓越性能。通过两阶段训练机制，SlideChat实现了视觉与语言特征的有效对齐，并被广泛应用于病理诊断、医学教育、研究开发以及临床决策支持。 ---

AI项目与工具 2025年06月12日 10 点赞 0 评论 731 浏览

Flame

Flame是一款开源的多模态AI模型，能够将UI设计截图转换为高质量的现代前端代码。它支持React等主流框架，具备动态交互、组件化开发和高代码质量的特点。Flame通过创新的数据合成方法提升代码多样性与准确性，适用于快速原型开发、提升开发效率及辅助学习等多种场景。其训练数据、模型和测试集均已开源，为前端开发提供了高效的工具支持。

AI项目与工具 2025年06月12日 87 点赞 0 评论 726 浏览

Helix

Helix 是 Figure 公司推出的视觉-语言-动作（VLA）模型，专为人形机器人设计，支持对上半身的高精度、高频次控制，频率达 200Hz。它能基于自然语言指令执行未见过的物品操作，具备强大的泛化能力。系统采用端到端训练方式，可在低功耗设备上运行，适用于多机器人协作、家庭服务、工业自动化等多种场景，具有较高的商业化潜力。

AI项目与工具 2025年06月12日 69 点赞 0 评论 716 浏览

EMOVA

EMOVA是一款由多所高校与企业联合研发的多模态全能型AI助手，具备处理图像、文本和语音的能力，支持情感化语音对话，并通过轻量级情感控制模块增强了人机交互的自然性。其核心技术包括连续视觉编码器、语义-声学分离的语音分词器及全模态对齐机制，广泛应用于客户服务、教育辅助、智能家居控制等多个领域。

AI项目与工具 2025年06月12日 55 点赞 0 评论 692 浏览

LEOPARD

LEOPARD是一款由腾讯AI Lab开发的视觉语言模型，专为处理包含大量文本的多图像任务而设计。它通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集，实现对复杂视觉语言任务的高效处理，包括跨图像推理、高分辨率图像处理及动态视觉序列长度优化。LEOPARD在自动化文档理解、教育、商业智能等领域具有广泛应用潜力。

AI项目与工具 2025年06月12日 35 点赞 0 评论 684 浏览

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型，基于 Qwen2.5-VL 架构，结合强化学习优化技术，具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析，支持自然语言指令定位图像目标，并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 681 浏览

FastVLM

FastVLM是一款高效的视觉语言模型，采用FastViTHD混合视觉编码器，显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时，降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务，具备良好的实用性和扩展性。

AI项目与工具 2025年06月11日 85 点赞 0 评论 677 浏览

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 674 浏览

视觉语言

首页

视觉语言

列表

默认

浏览次数

发布日期