视觉问答 - 智狐AI导航

Vary

一个小型但功能强大的视觉语言模型，它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能。

Ai平台模型 1970年01月01日 0 点赞 0 评论 299 浏览

Pangea

Pangea是一款由卡内基梅隆大学团队开发的多语言多模态大型语言模型，支持39种语言，具备多模态理解和跨文化覆盖能力。其主要功能包括多语言文本生成与理解、图像描述、视觉问答等，同时通过高质量指令和文化相关任务优化性能。Pangea基于丰富的数据集和先进的模型架构，适用于多语言客户服务、教育、跨文化交流等多个领域。

AI项目与工具 2025年06月12日 11 点赞 0 评论 410 浏览

VideoLLaMA3

VideoLLaMA3 是阿里巴巴开发的多模态基础模型，支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构，结合先进视觉编码器与语言生成能力，具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景，提供多种参数版本，支持灵活部署。

AI项目与工具 2025年06月12日 87 点赞 0 评论 416 浏览

Aya Vision

Aya Vision 是 Cohere 推出的多模态、多语言视觉模型，支持 23 种语言，具备图像描述生成、视觉问答、文本翻译和多语言摘要生成等能力。采用模块化架构与合成标注技术，确保在资源有限条件下仍具高效表现。适用于教育、内容创作、辅助工具开发及多语言交流等多个场景，具有广泛的实用价值。

AI项目与工具 2025年06月12日 70 点赞 0 评论 439 浏览

VARGPT

VARGPT是一款多模态大语言模型，整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制，支持文本与图像的混合输入和输出，具备高效的视觉生成能力。模型采用三阶段训练策略，提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 477 浏览

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台，集成了指令优化的多模态大型语言模型（MLLM）及一系列定制化医疗工具，支持多种医学成像模式（如MRI、CT、X射线等），可高效处理视觉问答、分类、定位、分割、医学报告生成（MRG）及检索增强生成（RAG）等任务，显著提升了医疗数据处理效率与准确性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 483 浏览

Docmatix

Docmatix 是一个专为文档视觉问答任务设计的大规模数据集，包含240万张图像和950万个问题-答案对，源自130万个PDF文档。数据集覆盖广泛，包括扫描图片、PDF文件和数字文档，且具有高质量的问答对。Docmatix 支持模型训练和微调，可用于训练视觉语言模型，提高其在理解和回答与文档内容相关问题方面的性能。应用场景包括自动化客户服务、智能文档分析、教育和学术研究以及业务流程自动化等。

AI项目与工具 2025年06月12日 87 点赞 0 评论 502 浏览

Show

Show-o 是一款基于统一 Transformer 架构的多模态 AI 工具，集成了自回归和离散扩散建模技术，可高效处理视觉问答、文本到图像生成、图像修复与扩展以及混合模态生成等多种任务。其创新性技术显著提高了生成效率，减少了采样步骤，适用于社交媒体内容创作、虚拟助手、教育与培训、广告营销、游戏开发及影视制作等多个领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 517 浏览

Eagle

Eagle是一个由英伟达开发的多模态大模型，专长于处理高分辨率图像，提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构，通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源，适用于多个行业，具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

AI项目与工具 2025年06月12日 38 点赞 0 评论 533 浏览

JanusFlow

JanusFlow是一款集成了自回归语言模型与校正流技术的多模态AI模型，能够在单一框架内高效完成图像理解和生成任务。它通过解耦视觉编码器和表示对齐策略，显著提升了模型在视觉理解与图像生成上的表现，广泛应用于图像生成、多模态内容创作、视觉问答、图像理解和辅助设计等多个领域。

AI项目与工具 2025年06月12日 20 点赞 0 评论 533 浏览

视觉问答

首页

视觉问答

列表

默认

浏览次数

发布日期