评测 - 智狐AI导航

Genie Studio

Genie Studio 是一款面向具身智能的全链路开发平台，涵盖数据采集、模型训练、仿真评测和部署。支持多模态数据采集、高保真仿真环境、自动化评测及一键真机部署，适用于机器人研发、工业自动化、物流仓储和服务机器人等多种场景，提升开发效率与应用落地速度。

AI项目与工具 2025年06月11日 78 点赞 0 评论 851 浏览

扣子罗盘

扣子罗盘是一款面向开发者和创业团队的AI工具平台，支持从Prompt开发到AI Agent部署的全生命周期管理。具备Prompt智能中枢、实时观测预警和全链路评测体系等核心功能，提升开发效率与系统稳定性。适用于智能客服、内容创作、教育辅导等多个场景，助力AI应用快速落地。

AI项目与工具 2025年06月12日 42 点赞 0 评论 832 浏览

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集，覆盖285个研究生级学科，包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平，42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式，确保题目质量，并涵盖STEM与非STEM领域，填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

AI项目与工具 2025年06月12日 11 点赞 0 评论 791 浏览

BrowseComp

BrowseComp 是 OpenAI 开源的 AI 浏览能力评估基准，包含 1266 个高难度问题，覆盖多个领域。它要求 AI 代理进行多步骤推理和跨网站信息整合，测试其搜索、分析和适应能力。Deep Research 模型在其中表现优异，准确率达 51.5%。该工具适用于企业知识库、电商导购、政府服务及 AI 研究等领域，推动智能浏览技术发展。

AI项目与工具 2025年06月11日 50 点赞 0 评论 769 浏览