基准测试 - 智狐AI导航

HealthBench

HealthBench是OpenAI推出的开源医疗评估工具，用于衡量大型语言模型在医疗保健领域的表现和安全性。它包含5000个由医生设计的多轮对话，涵盖多种健康场景，并通过多维度评分标准评估模型的准确性、沟通质量等。支持按主题和行为维度进行细分分析，帮助开发者识别模型优势与不足，指导优化方向。适用于模型性能评估、安全测试及医疗AI工具选择。

AI项目与工具 2025年06月11日 79 点赞 0 评论 369 浏览

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具，用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对，覆盖8大领域及26类认知任务，强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证，确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域，推动AI模型在多模态场景下的性能提升。

AI项目与工具 2025年06月12日 61 点赞 0 评论 364 浏览

URO

URO-Bench 是一个面向端到端语音对话模型的综合评估工具，支持多语言、多轮对话及副语言信息处理。它包含基础和高级两个赛道，分别涵盖16个和20个数据集，覆盖开放性问答、情感生成、多语言任务等。支持多种评估指标，提供简单易用的评估流程，并兼容多种语音对话模型。适用于智能家居、个人助理、语言学习等多个实际应用场景。

AI项目与工具 2025年06月12日 47 点赞 0 评论 336 浏览

AxBench

AxBench是斯坦福大学推出的语言模型可解释性评估框架，支持概念检测与模型转向任务。它通过合成数据生成训练集，评估模型对特定概念的识别能力和干预后的表现。提供统一的评估平台，支持多种控制方法，如提示、微调和稀疏自编码器，并采用多维评分机制，适用于AI安全、伦理及内容生成等场景。

AI项目与工具 2025年06月12日 98 点赞 0 评论 335 浏览

基准测试

首页

基准测试

列表

默认

浏览次数

发布日期

HealthBench

WorldSense

URO

AxBench

基准测试 首页 基准测试

列表 默认 浏览次数 发布日期

HealthBench

WorldSense

URO

AxBench

基准测试

首页

基准测试

列表

默认

浏览次数

发布日期