论文
Paper2Coder
Paper2Code是一款由韩国科学技术院与DeepAuto.ai联合开发的AI工具,基于多Agent大语言模型,能够将机器学习论文自动转换为可运行的代码仓库。其核心流程包括规划、分析和代码生成三个阶段,确保生成的代码结构清晰、逻辑严谨,并忠实于原始论文。该工具显著提升了研究复现效率,适用于学术研究、教学、工业应用等多个场景,是推动AI研究落地的重要工具。
PaperBench
PaperBench是OpenAI开发的AI智能体评测基准,用于评估其复现顶级机器学习论文的能力。它涵盖从理解论文、编写代码到执行实验的全流程,具备8316个评分节点和自动评分系统。支持多种智能体配置,提供标准化测试环境,适用于模型优化、学术验证及教育实践等领域,推动AI研究的标准化发展。
