评测 - 智狐AI导航

FlagEval

FlagEval作为一个专业的语言模型评估平台，为用户提供了一个可靠、标准化的评测环境。通过这个平台，研究人员和开发者可以全面了解模型的性能，推动语言模型技术的不断进步和创新。

创作工具 2026年06月30日 0 点赞 0 评论 657 浏览

Qwen2

Qwen2是由阿里云通义千问团队开发的大型语言模型系列，涵盖从0.5B到72B的不同规模版本。该系列模型在自然语言理解、代码编写、数学解题及多语言处理方面表现出色，尤其在Qwen2-72B模型上，其性能已超过Meta的Llama-3-70B。Qwen2支持最长128K tokens的上下文长度，并已在Hugging Face和ModelScope平台上开源。 ---

AI项目与工具 2024年01月01日 48 点赞 0 评论 603 浏览

书生·筑梦2.0（Vchitect 2.0）

书生·筑梦2.0是一款由上海人工智能实验室开发的开源视频生成大模型，支持文本到视频和图像到视频的转换，生成高质量的2K分辨率视频内容。它具备灵活的宽高比选择、强大的超分辨率处理能力以及创新的视频评测框架，适用于广告、教育、影视等多个领域。

AI项目与工具 2025年06月12日 32 点赞 0 评论 620 浏览

FlagevalMM

FlagEvalMM是一个由北京智源人工智能研究院开发的开源多模态模型评测框架，专注于评估处理文本、图像、视频等多模态任务的模型性能。它支持多种任务和指标，采用解耦评测与推理的设计，提供统一的评测流程，集成丰富模型库并兼容多种后端引擎。该工具适用于学术研究、工业应用、模型开发、教育领域及内容创作等多个场景。

AI项目与工具 2025年06月12日 89 点赞 0 评论 548 浏览

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集，覆盖285个研究生级学科，包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平，42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式，确保题目质量，并涵盖STEM与非STEM领域，填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

AI项目与工具 2025年06月12日 11 点赞 0 评论 791 浏览

PaperBench

PaperBench是OpenAI开发的AI智能体评测基准，用于评估其复现顶级机器学习论文的能力。它涵盖从理解论文、编写代码到执行实验的全流程，具备8316个评分节点和自动评分系统。支持多种智能体配置，提供标准化测试环境，适用于模型优化、学术验证及教育实践等领域，推动AI研究的标准化发展。

AI项目与工具 2025年06月12日 31 点赞 0 评论 741 浏览

扣子罗盘

扣子罗盘是一款面向开发者和创业团队的AI工具平台，支持从Prompt开发到AI Agent部署的全生命周期管理。具备Prompt智能中枢、实时观测预警和全链路评测体系等核心功能，提升开发效率与系统稳定性。适用于智能客服、内容创作、教育辅导等多个场景，助力AI应用快速落地。

AI项目与工具 2025年06月12日 42 点赞 0 评论 832 浏览

BrowseComp

BrowseComp 是 OpenAI 开源的 AI 浏览能力评估基准，包含 1266 个高难度问题，覆盖多个领域。它要求 AI 代理进行多步骤推理和跨网站信息整合，测试其搜索、分析和适应能力。Deep Research 模型在其中表现优异，准确率达 51.5%。该工具适用于企业知识库、电商导购、政府服务及 AI 研究等领域，推动智能浏览技术发展。

AI项目与工具 2025年06月11日 50 点赞 0 评论 769 浏览

Genie Studio

Genie Studio 是一款面向具身智能的全链路开发平台，涵盖数据采集、模型训练、仿真评测和部署。支持多模态数据采集、高保真仿真环境、自动化评测及一键真机部署，适用于机器人研发、工业自动化、物流仓储和服务机器人等多种场景，提升开发效率与应用落地速度。

AI项目与工具 2025年06月11日 78 点赞 0 评论 851 浏览

xbench

xbench是红杉中国推出的AI基准测试工具，采用双轨评估体系，追踪模型的理论能力上限与实际落地价值。其长青评估机制动态更新测试内容，确保时效性。xbench包含科学问题解答和中文互联网深度搜索两个核心评估集，按季度或每月更新题目。工具还提供垂直领域智能体评测、实时更新与LeaderBoard功能，适用于模型能力评估、真实效用量化、产品迭代指导等场景，推动AI系统在真实场景中的效用提升。

AI项目与工具 2025年06月11日 33 点赞 0 评论 585 浏览

评测

首页

评测

列表

默认

浏览次数

发布日期