Math24o

简介：Math24o 是 SuperCLUE 开源的高中奥林匹克数学竞赛级别数学推理测评基准，基于 2024 年全国高中数学竞赛预赛试题，包含 21 道高难度解答题。评测通过程序自动判断答案一致性，客观评估模型正确率。支持自动化评估流程，适用于教育、学术研究和模型优化等领域，为数学推理能力的提升提供重要工具。

AI小编 380 阅读 0 评论 22 点赞

项目地址

Math24o简介

Math24o 是 SuperCLUE 开源的高中奥林匹克数学竞赛级别数学推理测评基准，旨在评估大型语言模型在数学推理方面的能力。该基准基于 2024 年全国高中数学竞赛的部分预赛试题，包含 21 道高难度解答题，题目答案唯一且为整数或小数。测评通过程序自动判断模型答案与参考答案的一致性，从而客观评估模型的正确率。该测评基准能够有效衡量语言模型在解决复杂数学问题时的表现，为相关研究和开发提供重要工具。

Math24o的主要功能

高难度数学问题测评：Math24o 基于 2024 年全国高中数学竞赛的预赛试题，涵盖函数、数列、几何等多个数学领域，共 21 道高难度解答题，全面评估模型在高中数学竞赛中的推理能力。
答案唯一性与客观评估：所有题目答案唯一且为整数或小数，确保测评公正性和可靠性。系统通过程序自动判断模型答案是否与标准答案一致，以客观方式评估模型正确率。
自动化评估流程：用户可将模型输出保存至指定文件，运行 Python 脚本后即可获得平均得分及每道题的详细评估结果。
支持模型研发与优化：该基准为模型研发提供参考，帮助开发者了解模型在复杂数学任务中的表现，推动其在数学推理能力上的持续提升。

Math24o的技术实现

技术实现：Math24o 基于 Python 编程语言开发，通过编写专用脚本实现自动化评估功能，提高评估效率并减少人为干预。

Math24o的项目地址

Github仓库：https://github.com/CLUEbenchmark/Math24o

Math24o的模型性能评估与对比

从测试结果来看，o3-mini(high) 表现最佳，总得分为 85.71 分，其他模型如 Gemini-2.0-Flash-Thinking-Exp-01-21 和 QwQ-32B 等得分分别为 71.43 分和 66.67 分，表明当前大模型在高中奥数领域的表现仍有提升空间。

排名	模型	机构	总分	使用方式	发布日期
1	o3-mini(high)	OpenAI	85.71	API	2025.03.12
2	Gemini-2.0-Flash-Thinking-Exp-01-21	Google	71.43	API	2025.03.12
3	QwQ-Max-Preview	阿里云	66.67	官网	2025.03.12
3	QwQ-32B	阿里云	66.67	模型	2025.03.12
3	o1	OpenAI	66.67	API	2025.03.12
4	DeepSeek-R1	深度求索	57.14	API	2025.03.12
4	Claude 3.7 Sonnet	Anthropic	57.14	POE	2025.03.12

Math24o的应用场景

教育领域：Math24o 可用于评估学生数学推理能力，帮助教师和研究者分析学生在复杂问题中的解题技巧。
学术研究：作为评估不同大型语言模型数学推理能力的基准，有助于推动模型性能的提升。
模型开发与优化：开发者可通过测试模型在奥数题上的表现，优化模型结构和训练策略。
智慧校园建设：可作为智慧校园的一部分，辅助学校提升学生的数学能力。
教育资源整合：题目与评估工具可集成到教育资源平台，为教学提供丰富资源。

本文分类：AI项目与工具
本文标签：AI测评数学推理大模型评估 SuperCLUE 智能教育模型优化自动化评估高中奥数教育科技 AI工具
浏览次数：380 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8323.html

评论列表共有 0 条评论

暂无评论