评估 - 智狐AI导航

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具，用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对，覆盖8大领域及26类认知任务，强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证，确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域，推动AI模型在多模态场景下的性能提升。

AI项目与工具 2025年06月12日 61 点赞 0 评论 676 浏览

零克追踪

零克追踪是专业的小红书笔记质量分析工具,可以对小红书笔记的推送人群,笔记的关键词和分类进行检测!

数据分析 2025年06月05日 60 点赞 0 评论 674 浏览

沃研Turbo大模型

沃恩智慧公司专为大学生设计的科研大模型，有期刊推荐、文献摘要、论文精读、翻译润色、创新点评估、个性化论文推荐以及AI降重等功能。

Ai平台模型 2025年06月05日 51 点赞 0 评论 673 浏览

Genie 2

Genie 2是一款由DeepMind开发的大规模基础世界模型，其核心功能包括基于单一图片生成可交互3D游戏世界、模拟物体交互及物理效果、支持多类型动作控制、具备长时间记忆能力以及实时生成新场景内容。该工具不仅适用于智能体训练与评估，还广泛应用于游戏开发、模拟与训练、机器人学习以及虚拟现实和增强现实等领域。

AI项目与工具 2025年06月12日 40 点赞 0 评论 663 浏览

LMArena AI

前身为lmsys.org，是一个专注于众包AI基准测试的开放平台，用户可以在此平台上免费与AI聊天并进行投票，比较和测试不同的AI聊天机器人。

Ai平台模型 2025年06月05日 13 点赞 0 评论 658 浏览

微点智能考试系统

高效有趣的智能考试系统，用人工智能将任何内容变成有趣的考试，让企业组织的信息传递和培训学习更高效。

教育学习 2025年06月05日 40 点赞 0 评论 656 浏览

口语精灵

口语精灵是一款基于人工智能的英语口语学习工具，提供1V1智能对话练习，涵盖生活、工作、考试等多场景，支持多种英语口音。其具备发音评估、语法纠错、语句优化等功能，帮助用户提升口语表达的准确性和自然度。同时，该工具提供个性化学习方案和考试备考支持，适用于不同学习阶段的用户。

AI项目与工具 2025年06月12日 61 点赞 0 评论 655 浏览

MMSearch

MMSearch 是一款用于评估大型多模态模型（LMMs）搜索能力的基准测试工具，包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结，通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异，且增加计算量比扩大模型规模更具优势。

AI项目与工具 2025年06月12日 44 点赞 0 评论 652 浏览

xbench

xbench是红杉中国推出的AI基准测试工具，采用双轨评估体系，追踪模型的理论能力上限与实际落地价值。其长青评估机制动态更新测试内容，确保时效性。xbench包含科学问题解答和中文互联网深度搜索两个核心评估集，按季度或每月更新题目。工具还提供垂直领域智能体评测、实时更新与LeaderBoard功能，适用于模型能力评估、真实效用量化、产品迭代指导等场景，推动AI系统在真实场景中的效用提升。

AI项目与工具 2025年06月11日 33 点赞 0 评论 647 浏览

HealthBench

HealthBench是OpenAI推出的开源医疗评估工具，用于衡量大型语言模型在医疗保健领域的表现和安全性。它包含5000个由医生设计的多轮对话，涵盖多种健康场景，并通过多维度评分标准评估模型的准确性、沟通质量等。支持按主题和行为维度进行细分分析，帮助开发者识别模型优势与不足，指导优化方向。适用于模型性能评估、安全测试及医疗AI工具选择。

AI项目与工具 2025年06月11日 79 点赞 0 评论 646 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期