基准测试 - 智狐AI导航

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架，涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域，包含1,130个问题，每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标，全面衡量模型推理能力，并揭示当前模型在反思机制和感知任务上的不足，为模型优化和研究提供重要参考。

AI项目与工具 2025年06月12日 36 点赞 0 评论 929 浏览

DeepSeek V3

DeepSeek V3是一款由幻方量化旗下的深度求索公司开源的AI模型，拥有6850亿参数，采用混合专家架构。它在多语言编程、长文本处理和对话交互方面表现出色，能够生成高质量代码、优化现有代码、协助调试、生成文本、分析文本、润色文本，并支持自然对话和多轮对话。此外，它在多个基准测试中表现出色，包括编程、数学、推理等领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 900 浏览

SimpleQA

SimpleQA是OpenAI开发的一个基准测试工具，用于评估大型语言模型在回答简短、事实性问题时的表现。它包含4326个问题，每个问题都有唯一的正确答案，并通过严格的验证流程确保质量。SimpleQA不仅能够测试模型的事实性回答能力，还能衡量其自我认知水平和校准能力，广泛应用于模型开发、学术研究及教育工具等领域。

AI项目与工具 2025年06月12日 93 点赞 0 评论 835 浏览

K2

地球科学的开源大预言模型，首先在收集和清理过的地球科学文献（包括地球科学开放存取论文和维基百科页面）上对 LLaMA 进行进一步预训练，然后使用知识密集型指令调整数据（GeoSig...

Ai平台模型 2026年06月29日 0 点赞 0 评论 821 浏览

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型，能够同时处理图像和文本数据。该模型包含120亿参数，大小约为24GB，基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力，能够执行图像描述生成、统计照片中的物体数量等任务，并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源，用户可以自由下载和微调该模型。应用场景广泛，包括

AI项目与工具 2025年06月12日 69 点赞 0 评论 816 浏览

DNA-RENDERING数字人库

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库，它为广泛的研究任务提供了丰富的数据和高质量的注释。

Ai视频生成 2026年06月29日 0 点赞 0 评论 810 浏览

Reflection 70B

Reflection 70B是一款基于Meta的Llama 3.1 70B Instruct构建的开源AI大模型，采用“Reflection-Tuning”技术，能够在生成最终回答前检测并纠正错误，显著提高输出的准确性。该模型特别适用于需要高精度推理的任务，并具备出色的零样本推理能力。用户可以通过引入特殊token，以更结构化的方式与模型交互。此外，Reflection 70B支持通过Huggin

AI项目与工具 2025年06月12日 98 点赞 0 评论 800 浏览

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集，覆盖285个研究生级学科，包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平，42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式，确保题目质量，并涵盖STEM与非STEM领域，填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

AI项目与工具 2025年06月12日 11 点赞 0 评论 789 浏览

Phi

Phi-3是由微软研究院开发的一系列小型语言模型，包括phi-3-mini、phi-3-small和phi-3-medium三个版本。这些模型通过优化的数据集和算法，在保持较小参数规模的同时，展现出与大型模型相当的语言理解和推理能力。phi-3-mini模型仅有3.8亿参数，但在多项基准测试中表现优异，甚至能在智能手机上运行。Phi-3系列模型的研发体现了在数据工程和模型优化领域的最新进展，为未来

AI项目与工具 2024年01月01日 42 点赞 0 评论 760 浏览

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架，集成了文本和图像模态操作环境，提供标准化的基准测试任务。它通过支持多种模型类型（LLMs 和 LMMs），覆盖九个应用场景的 138 项任务，有效提升了开源模型的性能。此外，AndroidLab 提供了丰富的评估指标和操作模式，助力研究者优化模型表现并推动开源解决方案的发展。

AI项目与工具 2025年06月12日 38 点赞 0 评论 750 浏览

基准测试

首页

基准测试

列表

默认

浏览次数

发布日期

MME