Math24o简介

Math24o 是 SuperCLUE 开源的高中奥林匹克数学竞赛级别数学推理测评基准,旨在评估大型语言模型在数学推理方面的能力。该基准基于 2024 年全国高中数学竞赛的部分预赛试题,包含 21 道高难度解答题,题目答案唯一且为整数或小数。测评通过程序自动判断模型答案与参考答案的一致性,从而客观评估模型的正确率。该测评基准能够有效衡量语言模型在解决复杂数学问题时的表现,为相关研究和开发提供重要工具。

Math24o的主要功能

  • 高难度数学问题测评:Math24o 基于 2024 年全国高中数学竞赛的预赛试题,涵盖函数、数列、几何等多个数学领域,共 21 道高难度解答题,全面评估模型在高中数学竞赛中的推理能力。
  • 答案唯一性与客观评估:所有题目答案唯一且为整数或小数,确保测评公正性和可靠性。系统通过程序自动判断模型答案是否与标准答案一致,以客观方式评估模型正确率。
  • 自动化评估流程:用户可将模型输出保存至指定文件,运行 Python 脚本后即可获得平均得分及每道题的详细评估结果。
  • 支持模型研发与优化:该基准为模型研发提供参考,帮助开发者了解模型在复杂数学任务中的表现,推动其在数学推理能力上的持续提升。

Math24o的技术实现

  • 技术实现:Math24o 基于 Python 编程语言开发,通过编写专用脚本实现自动化评估功能,提高评估效率并减少人为干预。

Math24o的项目地址

Math24o的模型性能评估与对比

从测试结果来看,o3-mini(high) 表现最佳,总得分为 85.71 分,其他模型如 Gemini-2.0-Flash-Thinking-Exp-01-21 和 QwQ-32B 等得分分别为 71.43 分和 66.67 分,表明当前大模型在高中奥数领域的表现仍有提升空间。

排名 模型 机构 总分 使用方式 发布日期
1 o3-mini(high) OpenAI 85.71 API 2025.03.12
2 Gemini-2.0-Flash-Thinking-Exp-01-21 Google 71.43 API 2025.03.12
3 QwQ-Max-Preview 阿里云 66.67 官网 2025.03.12
3 QwQ-32B 阿里云 66.67 模型 2025.03.12
3 o1 OpenAI 66.67 API 2025.03.12
4 DeepSeek-R1 深度求索 57.14 API 2025.03.12
4 Claude 3.7 Sonnet Anthropic 57.14 POE 2025.03.12

Math24o的应用场景

  • 教育领域:Math24o 可用于评估学生数学推理能力,帮助教师和研究者分析学生在复杂问题中的解题技巧。
  • 学术研究:作为评估不同大型语言模型数学推理能力的基准,有助于推动模型性能的提升。
  • 模型开发与优化:开发者可通过测试模型在奥数题上的表现,优化模型结构和训练策略。
  • 智慧校园建设:可作为智慧校园的一部分,辅助学校提升学生的数学能力。
  • 教育资源整合:题目与评估工具可集成到教育资源平台,为教学提供丰富资源。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部