基准测试

DNA

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库,它为广泛的研究任务提供了丰富的数据和高质量的注释。

K2

地球科学的开源大预言模型,首先在收集和清理过的地球科学文献(包括地球科学开放存取论文和维基百科页面)上对 LLaMA 进行进一步预训练,然后使用知识密集型指令调整数据(GeoSig...

Phi

Phi-3是由微软研究院开发的一系列小型语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个版本。这些模型通过优化的数据集和算法,在保持较小参数规模的同时,展现出与大型模型相当的语言理解和推理能力。phi-3-mini模型仅有3.8亿参数,但在多项基准测试中表现优异,甚至能在智能手机上运行。Phi-3系列模型的研发体现了在数据工程和模型优化领域的最新进展,为未来

DeepSeek Coder

中国人工智能公司深度求索(DeepSeek)推出的开源代码生成大模型系列,通过深度学习技术提升代码生成和理解能力,提升开发者的编程效率。

EvalsOne Ai

一个功能强大而简单易用的一站式评估平台,EvalsOne Ai用于迭代优化生成式AI的应用程序。它可以帮助克服AI生成中的不确定性,简化工作流程,增强团队信心,确保

xbench

xbench是红杉中国推出的AI基准测试工具,采用双轨评估体系,追踪模型的理论能力上限与实际落地价值。其长青评估机制动态更新测试内容,确保时效性。xbench包含科学问题解答和中文互联网深度搜索两个核心评估集,按季度或每月更新题目。工具还提供垂直领域智能体评测、实时更新与LeaderBoard功能,适用于模型能力评估、真实效用量化、产品迭代指导等场景,推动AI系统在真实场景中的效用提升。

HealthBench

HealthBench是OpenAI推出的开源医疗评估工具,用于衡量大型语言模型在医疗保健领域的表现和安全性。它包含5000个由医生设计的多轮对话,涵盖多种健康场景,并通过多维度评分标准评估模型的准确性、沟通质量等。支持按主题和行为维度进行细分分析,帮助开发者识别模型优势与不足,指导优化方向。适用于模型性能评估、安全测试及医疗AI工具选择。

OlympicArena

OlympicArena是由多所高校与研究机构联合开发的多学科认知推理基准测试框架,包含11,163道国际奥赛双语题目,覆盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。该平台通过答案级与过程级评估,全面衡量AI模型的逻辑与视觉推理能力,支持多模态输入并具备数据泄漏检测机制,适用于AI模型评估、训练优化、教育辅助及科研应用。

URO

URO-Bench 是一个面向端到端语音对话模型的综合评估工具,支持多语言、多轮对话及副语言信息处理。它包含基础和高级两个赛道,分别涵盖16个和20个数据集,覆盖开放性问答、情感生成、多语言任务等。支持多种评估指标,提供简单易用的评估流程,并兼容多种语音对话模型。适用于智能家居、个人助理、语言学习等多个实际应用场景。

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集,覆盖285个研究生级学科,包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平,42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式,确保题目质量,并涵盖STEM与非STEM领域,填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。