评分
PaperBench
PaperBench是OpenAI开发的AI智能体评测基准,用于评估其复现顶级机器学习论文的能力。它涵盖从理解论文、编写代码到执行实验的全流程,具备8316个评分节点和自动评分系统。支持多种智能体配置,提供标准化测试环境,适用于模型优化、学术验证及教育实践等领域,推动AI研究的标准化发展。
HealthBench
HealthBench是OpenAI推出的开源医疗评估工具,用于衡量大型语言模型在医疗保健领域的表现和安全性。它包含5000个由医生设计的多轮对话,涵盖多种健康场景,并通过多维度评分标准评估模型的准确性、沟通质量等。支持按主题和行为维度进行细分分析,帮助开发者识别模型优势与不足,指导优化方向。适用于模型性能评估、安全测试及医疗AI工具选择。
TenonAI 榫卯智能
TenonAI榫卯智能是一款创新的面试辅助工具,通过强大的AI大模型,为大学生提供真实的面试模拟体验和个性化评分。