多模态推理

Gemini

Gemini是Google DeepMind推出的全新AI模型,集成了多模态推理功能,超越了以往模型的性能,适用于科学文献洞察、竞争性编程等多种应用场景。

DeepEyes

DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型,基于端到端强化学习实现“用图思考”能力,无需依赖监督微调。它在推理过程中动态调用图像工具,增强对细节的感知与理解,在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能,适用于教育、医疗、交通、安防和工业等多个领域。

从容大模型

从容大模型是云从科技推出的多模态AI模型,在国际评测中表现优异,具备视觉语言理解与推理能力。其核心技术包括多模态对齐、高效工程优化和原生多模态推理,支持复杂场景下的文本识别和开放域问答。该模型在医学健康、金融、制造、政务等多个领域实现规模化应用,助力智能化转型。

Skywork R1V

Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型,具备强大的视觉链式推理能力,可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法,在多项基准测试中表现优异。模型开源,适用于教育、医疗、科研、内容审核等多个领域,推动多模态人工智能的发展。

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型,擅长处理图像与文本信息,具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异,支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术,提升推理准确性与可解释性,适用于科研、教育、医疗及自动驾驶等场景。

AgentRefine

AgentRefine 是由北京邮电大学与美团联合开发的智能体合成框架,采用“精炼调整”方法提升基于大语言模型的智能体在多样化任务中的泛化能力。它通过轨迹中的观察实现错误纠正与自我优化,增强智能体在复杂环境中的适应性和鲁棒性。该框架支持多样化推理路径,广泛应用于自动化决策、游戏 AI、代码生成及自然语言处理等领域。

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域,包含1,130个问题,每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标,全面衡量模型推理能力,并揭示当前模型在反思机制和感知任务上的不足,为模型优化和研究提供重要参考。

MedRAX

MedRAX是一款面向胸部X光检查的医学推理AI系统,结合多模态大模型与专业工具,实现复杂医疗问题的动态处理。支持多步骤推理、精准诊断与多种影像分析功能,适用于临床支持、教育培训及远程医疗等场景。系统具备良好的扩展性与部署灵活性,已在多项基准测试中表现优异。

MVoT

MVoT是一种多模态推理框架,通过生成图像形式的推理痕迹,增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制,有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域,具有广泛的应用潜力。

Agentic Object Detection

Agentic Object Detection是由吴恩达团队研发的新型目标检测技术,通过智能代理系统实现无需标注数据的目标识别。用户输入文字提示后,AI可精准定位图像中的目标及其属性,支持内在属性、上下文关系及动态状态的识别。该技术无需复杂训练流程,适用于装配验证、作物检测、医疗影像分析、危险物品识别和商品管理等多种场景,显著提升了检测效率和准确性。