评测

扣子罗盘

扣子罗盘是一款面向开发者和创业团队的AI工具平台,支持从Prompt开发到AI Agent部署的全生命周期管理。具备Prompt智能中枢、实时观测预警和全链路评测体系等核心功能,提升开发效率与系统稳定性。适用于智能客服、内容创作、教育辅导等多个场景,助力AI应用快速落地。

BrowseComp

BrowseComp 是 OpenAI 开源的 AI 浏览能力评估基准,包含 1266 个高难度问题,覆盖多个领域。它要求 AI 代理进行多步骤推理和跨网站信息整合,测试其搜索、分析和适应能力。Deep Research 模型在其中表现优异,准确率达 51.5%。该工具适用于企业知识库、电商导购、政府服务及 AI 研究等领域,推动智能浏览技术发展。

Genie Studio

Genie Studio 是一款面向具身智能的全链路开发平台,涵盖数据采集、模型训练、仿真评测和部署。支持多模态数据采集、高保真仿真环境、自动化评测及一键真机部署,适用于机器人研发、工业自动化、物流仓储和服务机器人等多种场景,提升开发效率与应用落地速度。

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集,覆盖285个研究生级学科,包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平,42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式,确保题目质量,并涵盖STEM与非STEM领域,填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

采风

一款全新体验的交互式调研工具,可以轻松创作美观、易用的调查问卷、表单、评测、投票、考试等。

PaperBench

PaperBench是OpenAI开发的AI智能体评测基准,用于评估其复现顶级机器学习论文的能力。它涵盖从理解论文、编写代码到执行实验的全流程,具备8316个评分节点和自动评分系统。支持多种智能体配置,提供标准化测试环境,适用于模型优化、学术验证及教育实践等领域,推动AI研究的标准化发展。

FlagEval

FlagEval作为一个专业的语言模型评估平台,为用户提供了一个可靠、标准化的评测环境。通过这个平台,研究人员和开发者可以全面了解模型的性能,推动语言模型技术的不断进步和创新。

Mergeek

一个产品发现及推荐的社区,我们发现并介绍全球范围内的优质科技产品及新技术。在这里,你可以为你的新产品找到对他们感兴趣的产品爱好者。

满分简历

一款专业的在线AI简历制作和简历优化工具,满分简历帮助您快速创建出结构清晰、内容丰富的个人简历。

职徒简历52cv

职徒简历,智能简历制作软件,基于GPT的简历优化和简历写作。