视觉问答 - 智狐AI导航

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台，集成了指令优化的多模态大型语言模型（MLLM）及一系列定制化医疗工具，支持多种医学成像模式（如MRI、CT、X射线等），可高效处理视觉问答、分类、定位、分割、医学报告生成（MRG）及检索增强生成（RAG）等任务，显著提升了医疗数据处理效率与准确性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 632 浏览

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型（MLLMs），能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能，并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外，OpenEMMA支持人类可读的输出，适用于多种驾驶环境，包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。

AI项目与工具 2025年06月12日 36 点赞 0 评论 884 浏览

Ivy

Ivy-VL是一款专为移动端和边缘设备设计的轻量级多模态AI模型，具备约30亿参数，专注于视觉问答、图像描述及复杂推理等任务，能够有效降低计算资源需求，同时在多模态任务中表现出色，尤其适用于增强现实、智能家居及移动学习等领域。

AI项目与工具 2025年06月12日 21 点赞 0 评论 759 浏览

Maya

Maya是一款开源多语言多模态模型，基于LLaVA框架开发，支持中文、法语、西班牙语等多种语言，专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据，实现跨模态对齐和指令微调，广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 705 浏览

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 804 浏览

Pangea

Pangea是一款由卡内基梅隆大学团队开发的多语言多模态大型语言模型，支持39种语言，具备多模态理解和跨文化覆盖能力。其主要功能包括多语言文本生成与理解、图像描述、视觉问答等，同时通过高质量指令和文化相关任务优化性能。Pangea基于丰富的数据集和先进的模型架构，适用于多语言客户服务、教育、跨文化交流等多个领域。

AI项目与工具 2025年06月12日 11 点赞 0 评论 526 浏览

OmniVision

OmniVision是一款面向边缘设备的紧凑型多模态AI模型，参数量为968M。它基于LLaVA架构优化，能够处理视觉与文本输入，显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能，广泛应用于内容审核、智能助手、视觉搜索等领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 950 浏览

JanusFlow

JanusFlow是一款集成了自回归语言模型与校正流技术的多模态AI模型，能够在单一框架内高效完成图像理解和生成任务。它通过解耦视觉编码器和表示对齐策略，显著提升了模型在视觉理解与图像生成上的表现，广泛应用于图像生成、多模态内容创作、视觉问答、图像理解和辅助设计等多个领域。

AI项目与工具 2025年06月12日 20 点赞 0 评论 648 浏览

Show

Show-o 是一款基于统一 Transformer 架构的多模态 AI 工具，集成了自回归和离散扩散建模技术，可高效处理视觉问答、文本到图像生成、图像修复与扩展以及混合模态生成等多种任务。其创新性技术显著提高了生成效率，减少了采样步骤，适用于社交媒体内容创作、虚拟助手、教育与培训、广告营销、游戏开发及影视制作等多个领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 647 浏览

CogAgent

CogAgent是一款由清华大学与智谱AI联合开发的多模态视觉大模型，专注于图形用户界面（GUI）的理解与导航。它具备视觉问答、视觉定位、GUI Agent、高分辨率图像处理及多模态能力，可应用于自动化测试、智能交互、多模态人工智能应用开发、企业级AI Agent平台等多个领域。CogAgent在多个基准测试中表现出色，尤其在GUI操作数据集上显著超越现有模型。

AI项目与工具 2025年06月12日 66 点赞 0 评论 744 浏览

视觉问答

首页

视觉问答

列表

默认

浏览次数

发布日期