Math24o简介
Math24o 是 SuperCLUE 开源的高中奥林匹克数学竞赛级别数学推理测评基准,旨在评估大型语言模型在数学推理方面的能力。该基准基于 2024 年全国高中数学竞赛的部分预赛试题,包含 21 道高难度解答题,题目答案唯一且为整数或小数。测评通过程序自动判断模型答案与参考答案的一致性,从而客观评估模型的正确率。该测评基准能够有效衡量语言模型在解决复杂数学问题时的表现,为相关研究和开发提供重要工具。
Math24o的主要功能
- 高难度数学问题测评:Math24o 基于 2024 年全国高中数学竞赛的预赛试题,涵盖函数、数列、几何等多个数学领域,共 21 道高难度解答题,全面评估模型在高中数学竞赛中的推理能力。
- 答案唯一性与客观评估:所有题目答案唯一且为整数或小数,确保测评公正性和可靠性。系统通过程序自动判断模型答案是否与标准答案一致,以客观方式评估模型正确率。
- 自动化评估流程:用户可将模型输出保存至指定文件,运行 Python 脚本后即可获得平均得分及每道题的详细评估结果。
- 支持模型研发与优化:该基准为模型研发提供参考,帮助开发者了解模型在复杂数学任务中的表现,推动其在数学推理能力上的持续提升。
Math24o的技术实现
- 技术实现:Math24o 基于 Python 编程语言开发,通过编写专用脚本实现自动化评估功能,提高评估效率并减少人为干预。
Math24o的项目地址
Math24o的模型性能评估与对比
从测试结果来看,o3-mini(high) 表现最佳,总得分为 85.71 分,其他模型如 Gemini-2.0-Flash-Thinking-Exp-01-21 和 QwQ-32B 等得分分别为 71.43 分和 66.67 分,表明当前大模型在高中奥数领域的表现仍有提升空间。
排名 | 模型 | 机构 | 总分 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
1 | o3-mini(high) | OpenAI | 85.71 | API | 2025.03.12 |
2 | Gemini-2.0-Flash-Thinking-Exp-01-21 | 71.43 | API | 2025.03.12 | |
3 | QwQ-Max-Preview | 阿里云 | 66.67 | 官网 | 2025.03.12 |
3 | QwQ-32B | 阿里云 | 66.67 | 模型 | 2025.03.12 |
3 | o1 | OpenAI | 66.67 | API | 2025.03.12 |
4 | DeepSeek-R1 | 深度求索 | 57.14 | API | 2025.03.12 |
4 | Claude 3.7 Sonnet | Anthropic | 57.14 | POE | 2025.03.12 |
Math24o的应用场景
- 教育领域:Math24o 可用于评估学生数学推理能力,帮助教师和研究者分析学生在复杂问题中的解题技巧。
- 学术研究:作为评估不同大型语言模型数学推理能力的基准,有助于推动模型性能的提升。
- 模型开发与优化:开发者可通过测试模型在奥数题上的表现,优化模型结构和训练策略。
- 智慧校园建设:可作为智慧校园的一部分,辅助学校提升学生的数学能力。
- 教育资源整合:题目与评估工具可集成到教育资源平台,为教学提供丰富资源。
发表评论 取消回复