视觉问答 - 智狐AI导航

Maya

Maya是一款开源多语言多模态模型，基于LLaVA框架开发，支持中文、法语、西班牙语等多种语言，专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据，实现跨模态对齐和指令微调，广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 406 浏览

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型，通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作，如放大区域或选择帧，以捕捉细节。采用两阶段训练方法，结合指令调优和好奇心驱动的强化学习，提升视觉推理性能。在多个基准测试中表现优异，适用于视觉问答、视频理解等任务，广泛应用于科研、教育、工业质检和内容创作等领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 420 浏览

Molmo 72B

Molmo 72B是一款由艾伦人工智能研究所推出的开源多模态AI模型，集成了图像和文本处理能力，适用于图像描述生成、视觉问答、文档解析及多模态交互等多种任务。凭借其强大的视觉编码能力和先进的模型架构，Molmo 72B在学术基准测试中表现优异，为开源AI技术的发展做出了重要贡献。

AI项目与工具 2025年06月12日 69 点赞 0 评论 431 浏览

BLIP3

BLIP3-o是Salesforce Research等机构推出的多模态AI模型，结合自回归与扩散模型优势，实现高效图像理解和生成。基于CLIP语义特征，支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略，提升模型性能。完全开源，适用于创意设计、视觉问答、艺术生成等多种场景。

AI项目与工具 2025年06月11日 12 点赞 0 评论 439 浏览

CogAgent

CogAgent是一款由清华大学与智谱AI联合开发的多模态视觉大模型，专注于图形用户界面（GUI）的理解与导航。它具备视觉问答、视觉定位、GUI Agent、高分辨率图像处理及多模态能力，可应用于自动化测试、智能交互、多模态人工智能应用开发、企业级AI Agent平台等多个领域。CogAgent在多个基准测试中表现出色，尤其在GUI操作数据集上显著超越现有模型。

AI项目与工具 2025年06月12日 66 点赞 0 评论 466 浏览

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 483 浏览

Ivy

Ivy-VL是一款专为移动端和边缘设备设计的轻量级多模态AI模型，具备约30亿参数，专注于视觉问答、图像描述及复杂推理等任务，能够有效降低计算资源需求，同时在多模态任务中表现出色，尤其适用于增强现实、智能家居及移动学习等领域。

AI项目与工具 2025年06月12日 21 点赞 0 评论 500 浏览

CAR（Certainty-based Adaptive Reasoning）是字节跳动联合复旦大学推出的自适应推理框架，旨在提升大型语言模型（LLM）和多模态大型语言模型（MLLM）的推理效率与准确性。该框架通过动态切换短答案和长形式推理，根据模型对答案的置信度（PPL）决定是否进行详细推理，从而在保证准确性的同时节省计算资源。CAR适用于视觉问答（VQA）、关键信息提取（KIE）等任务，在数学

AI项目与工具 2025年06月11日 73 点赞 0 评论 513 浏览

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 532 浏览

讯飞AI聊天对话

讯飞AI聊天对话是科大讯飞推出的AI大语言模型，具备多模态理解和生成能力，支持多种文件类型的智能管理、分析和再创作。

创作工具 1970年01月01日 0 点赞 0 评论 537 浏览

视觉问答

首页

视觉问答

列表

默认

浏览次数

发布日期