数学推理

OpenAI o4

OpenAI o4-mini 是一款高性能、低成本的小型推理模型,专为快速处理数学、编程和视觉任务优化。它具备多模态能力,可结合图像与文本进行推理,并支持工具调用以提高准确性。在多项基准测试中表现优异,尤其在数学和编程领域接近完整版模型。适用于教育、数据分析、软件开发及内容创作等多个场景,是高效率与性价比兼备的AI工具。

CAR

CAR(Certainty-based Adaptive Reasoning)是字节跳动联合复旦大学推出的自适应推理框架,旨在提升大型语言模型(LLM)和多模态大型语言模型(MLLM)的推理效率与准确性。该框架通过动态切换短答案和长形式推理,根据模型对答案的置信度(PPL)决定是否进行详细推理,从而在保证准确性的同时节省计算资源。CAR适用于视觉问答(VQA)、关键信息提取(KIE)等任务,在数学

子曰

子曰-o1是网易有道推出的国内首款支持分步式讲解的推理模型,采用14B参数轻量化设计,适配消费级显卡,在低显存设备上运行稳定。通过思维链技术模拟人类思考过程,输出详细解题步骤,特别适合教育场景,如K12数学教学和AI学习辅助。其具备强逻辑推理能力和自我纠错机制,支持启发式学习,提升用户理解与自主学习能力。

FoxBrain

FoxBrain是由鸿海研究院推出的大型语言模型,基于Meta Llama 3.1架构,拥有70B参数,专注于数学与逻辑推理领域。其采用高效训练策略,结合高质量中文数据与Adaptive Reasoning Reflection技术,提升推理能力。FoxBrain适用于智能制造、智慧教育、智能办公等多个场景,支持数据分析、代码生成、文书协作等功能,具备较强的上下文处理能力和稳定性。

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集,包含4300万条样本,涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量,并采用合成数据生成技术扩展数据集规模。基于此数据集,智源研究院训练出了20亿参数的Aquila-VL-2B模型,在多项基准测试中表现出色,推动了多模态AI领域的研究与发展。

360gpt2

360gpt2-o1是一款专注于数学与逻辑推理的人工智能大模型,具备强大的推理能力和深度学习能力。它通过合成数据优化、分阶段训练及“慢思考”范式提升了模型的表现,尤其在数学竞赛和基础数学评测中成绩显著。此外,模型还支持编程问题解决、复杂问题分析及教育领域应用,为企业决策提供逻辑支持。

LIMO

LIMO是由上海交通大学研发的一种高效推理方法,通过少量高质量训练样本激活大语言模型的复杂推理能力。其核心假设是“少即是多推理假设”,即在预训练阶段已具备丰富知识的模型中,复杂推理能力可通过精心设计的样本被有效激发。LIMO在多个数学推理基准测试中表现优异,且数据使用效率极高,仅需1%的数据即可达到显著效果。适用于教育、科研、工业和医疗等多个领域。

OLMo 2 32B

OLMo 2 32B 是由 Allen Institute for AI 推出的开源语言模型,拥有 320 亿参数,性能接近更大规模模型。它采用三阶段训练策略,结合预训练、中期训练和后训练,提升模型稳定性与任务适应性。模型支持多任务处理,涵盖自然语言处理、数学推理、编程辅助和内容创作等领域,并具备高效训练能力与低能耗优势。所有数据、代码和权重均开源,便于研究与开发。

BFS

BFS-Prover 是一种基于大语言模型的自动定理证明系统,通过改进广度优先搜索算法和长度归一化评分机制,提高证明搜索效率。系统结合专家迭代、直接偏好优化和分布式架构,支持复杂定理的高效验证,并与 Lean4 深度集成,确保形式化数学问题的逻辑正确性。适用于数学竞赛题、本科及研究生数学研究等领域,推动了自动定理证明技术的发展。

k0

k0-math是一款基于强化学习和思维链推理技术的新一代数学推理模型,由月之暗面推出。它在多个数学基准测试中表现出色,特别是在中考、高考、考研及竞赛级数学题库中的成绩超越了OpenAI的o1-mini和o1-preview模型。k0-math具备深入思考、规划解题思路以及自我反思优化的能力,适用于教育辅导、在线教育平台、竞赛培训、学术研究及自动化测试与评分等多个场景。