CodeElo 是一款用于评估大型语言模型(LLMs)在编程竞赛级别代码生成能力的基准测试工具。该工具借鉴了人类程序员的 Elo 评级系统,以衡量 LLMs 的实际编程水平。其测试题目主要来源于 CodeForces 平台,涵盖不同难度级别和算法类别,确保测试的多样性和代表性。所有提交的代码均直接在 CodeForces 平台上运行,并通过特定的评估机制判断其正确性。Elo 评分系统不仅考虑代码的准确性,还结合问题难度进行综合评估。在对多个开源与专有模型进行测试后,OpenAI 的 o1-mini 模型表现突出,超过 90% 的人类参赛者。CodeElo 的设计旨在弥补现有基准测试的不足,提供一个更全面、准确的评估环境,帮助研究人员深入理解并提升 LLMs 的编程能力。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部