多模态推理

AtomThink

AtomThink是一个由多所高校与企业联合研发的多模态数学推理框架，通过构建长链思维（CoT）引导多模态大型语言模型（MLLMs）进行复杂推理。它包含自动CoT注释引擎、原子步骤微调策略及多种搜索策略，旨在提升原子步骤质量并增强MLLMs的推理能力。AtomThink提出的大规模多模态数据集AtomMATH及其评估方法为模型训练和测试提供了重要支持，广泛应用于教育辅助、自动化测试、学术研究等领域

AI项目与工具 2025年06月12日 62 点赞 0 评论 783 浏览

QVQ

QVQ是一个基于Qwen2-VL-72B的开源多模态推理模型，擅长处理文本、图像等多模态数据，具备强大的视觉理解和复杂问题解决能力。它在数学和科学领域的视觉推理任务中表现出色，但在实际应用中仍需解决语言切换、递归推理及图像细节关注等问题。QVQ可广泛应用于教育、自动驾驶、医疗图像分析、安全监控及客户服务等领域。

AI项目与工具 2025年06月12日 70 点赞 0 评论 600 浏览

LlamaV

LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型，具备结构化推理和透明性，支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试，涵盖4000多个推理步骤，用于全面评估推理能力。其性能优于多个开源模型，适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景，具有高准确性和可解释性。

AI项目与工具 2025年06月12日 74 点赞 0 评论 593 浏览

k1.5

k1.5 是月之暗面推出的多模态思考模型，具备强大的数学、代码、视觉推理能力。在 short-CoT 模式下，性能超越主流模型 550%，在 long-CoT 模式下达到 OpenAI o1 水平。支持文本与图像的联合处理，适用于复杂推理、跨模态分析、教育、科研等领域。通过长上下文扩展和策略优化，提升推理效率与准确性。

AI项目与工具 2025年06月12日 38 点赞 0 评论 713 浏览

Agentic Object Detection

Agentic Object Detection是由吴恩达团队研发的新型目标检测技术，通过智能代理系统实现无需标注数据的目标识别。用户输入文字提示后，AI可精准定位图像中的目标及其属性，支持内在属性、上下文关系及动态状态的识别。该技术无需复杂训练流程，适用于装配验证、作物检测、医疗影像分析、危险物品识别和商品管理等多种场景，显著提升了检测效率和准确性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 915 浏览

MVoT

MVoT是一种多模态推理框架，通过生成图像形式的推理痕迹，增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制，有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 57 点赞 0 评论 750 浏览

MedRAX

MedRAX是一款面向胸部X光检查的医学推理AI系统，结合多模态大模型与专业工具，实现复杂医疗问题的动态处理。支持多步骤推理、精准诊断与多种影像分析功能，适用于临床支持、教育培训及远程医疗等场景。系统具备良好的扩展性与部署灵活性，已在多项基准测试中表现优异。

AI项目与工具 2025年06月12日 68 点赞 0 评论 592 浏览

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架，涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域，包含1,130个问题，每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标，全面衡量模型推理能力，并揭示当前模型在反思机制和感知任务上的不足，为模型优化和研究提供重要参考。

AI项目与工具 2025年06月12日 36 点赞 0 评论 929 浏览

AgentRefine

AgentRefine 是由北京邮电大学与美团联合开发的智能体合成框架，采用“精炼调整”方法提升基于大语言模型的智能体在多样化任务中的泛化能力。它通过轨迹中的观察实现错误纠正与自我优化，增强智能体在复杂环境中的适应性和鲁棒性。该框架支持多样化推理路径，广泛应用于自动化决策、游戏 AI、代码生成及自然语言处理等领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 753 浏览

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型，擅长处理图像与文本信息，具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异，支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术，提升推理准确性与可解释性，适用于科研、教育、医疗及自动驾驶等场景。

AI项目与工具 2025年06月12日 92 点赞 0 评论 699 浏览

多模态推理

首页

多模态推理

列表

默认

浏览次数

发布日期