基准测试 - 智狐AI导航

MSQA

MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集，支持文本、图像和点云等多种数据形式，旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务，该工具不仅能够评估模型性能，还能促进具身AI和3D场景理解领域的研究进展。同时，它为开发更强大的情境推理模型提供了丰富的预训练资源。

AI项目与工具 2025年06月12日 80 点赞 0 评论 576 浏览

k0

k0-math是一款基于强化学习和思维链推理技术的新一代数学推理模型，由月之暗面推出。它在多个数学基准测试中表现出色，特别是在中考、高考、考研及竞赛级数学题库中的成绩超越了OpenAI的o1-mini和o1-preview模型。k0-math具备深入思考、规划解题思路以及自我反思优化的能力，适用于教育辅导、在线教育平台、竞赛培训、学术研究及自动化测试与评分等多个场景。

AI项目与工具 2025年06月12日 45 点赞 0 评论 576 浏览

VSI

VSI-Bench是一种用于评估多模态大型语言模型（MLLMs）视觉空间智能的基准测试工具，包含超过5000个问题-答案对，覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务，可全面评估模型的空间认知、理解和记忆能力，并提供标准化的测试集用于模型性能对比。 ---

AI项目与工具 2025年06月12日 10 点赞 0 评论 587 浏览

DeepSeek V3

DeepSeek V3是一款由幻方量化旗下的深度求索公司开源的AI模型，拥有6850亿参数，采用混合专家架构。它在多语言编程、长文本处理和对话交互方面表现出色，能够生成高质量代码、优化现有代码、协助调试、生成文本、分析文本、润色文本，并支持自然对话和多轮对话。此外，它在多个基准测试中表现出色，包括编程、数学、推理等领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 819 浏览

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具，用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对，覆盖8大领域及26类认知任务，强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证，确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域，推动AI模型在多模态场景下的性能提升。

AI项目与工具 2025年06月12日 61 点赞 0 评论 528 浏览

AxBench

AxBench是斯坦福大学推出的语言模型可解释性评估框架，支持概念检测与模型转向任务。它通过合成数据生成训练集，评估模型对特定概念的识别能力和干预后的表现。提供统一的评估平台，支持多种控制方法，如提示、微调和稀疏自编码器，并采用多维评分机制，适用于AI安全、伦理及内容生成等场景。

AI项目与工具 2025年06月12日 98 点赞 0 评论 481 浏览

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架，涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域，包含1,130个问题，每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标，全面衡量模型推理能力，并揭示当前模型在反思机制和感知任务上的不足，为模型优化和研究提供重要参考。

AI项目与工具 2025年06月12日 36 点赞 0 评论 811 浏览

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集，覆盖285个研究生级学科，包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平，42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式，确保题目质量，并涵盖STEM与非STEM领域，填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

AI项目与工具 2025年06月12日 11 点赞 0 评论 708 浏览

URO

URO-Bench 是一个面向端到端语音对话模型的综合评估工具，支持多语言、多轮对话及副语言信息处理。它包含基础和高级两个赛道，分别涵盖16个和20个数据集，覆盖开放性问答、情感生成、多语言任务等。支持多种评估指标，提供简单易用的评估流程，并兼容多种语音对话模型。适用于智能家居、个人助理、语言学习等多个实际应用场景。

AI项目与工具 2025年06月12日 47 点赞 0 评论 492 浏览

OlympicArena

OlympicArena是由多所高校与研究机构联合开发的多学科认知推理基准测试框架，包含11,163道国际奥赛双语题目，覆盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。该平台通过答案级与过程级评估，全面衡量AI模型的逻辑与视觉推理能力，支持多模态输入并具备数据泄漏检测机制，适用于AI模型评估、训练优化、教育辅助及科研应用。

AI项目与工具 2025年06月12日 58 点赞 0 评论 620 浏览

基准测试

首页

基准测试

列表

默认

浏览次数

发布日期