评估

Umax

Umax是一款基于AI的面部分析工具,通过上传自拍照提供颜值评分、面部特征分析及个性化改进建议。具备进度跟踪、虚拟化妆、滤镜等功能,帮助用户提升外貌与自信。适用于日常美容、自我提升及美学学习,适合关注形象管理的用户。

Screenify

Screenify是一款AI驱动的面试工具,帮助企业优化招聘流程。通过自动化面试创建、智能评估和远程面试功能,提升筛选效率与公平性。支持多语言、个性化配置及与ATS系统集成,提供详细反馈和分析,助力企业精准选才。

LMArena AI

前身为lmsys.org,是一个专注于众包AI基准测试的开放平台,用户可以在此平台上免费与AI聊天并进行投票,比较和测试不同的AI聊天机器人。

LMMs

LMMs-Eval 是一个用于多模态AI模型的统一评估框架,提供标准化、广泛覆盖且成本效益高的性能评估解决方案。它支持超过50个任务和10多个模型,并通过透明和可复现的评估流程帮助研究者和开发者全面了解模型能力。LMMs-Eval 还引入了 LMMs-Eval Lite 和 LiveBench,分别通过精简数据集降低评估成本并动态更新评估数据集,以确保模型泛化能力的有效评估。

口语精灵

口语精灵是一款基于人工智能的英语口语学习工具,提供1V1智能对话练习,涵盖生活、工作、考试等多场景,支持多种英语口音。其具备发音评估、语法纠错、语句优化等功能,帮助用户提升口语表达的准确性和自然度。同时,该工具提供个性化学习方案和考试备考支持,适用于不同学习阶段的用户。

BALROG

BALROG是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏环境中推理能力的框架。它通过程序化生成的游戏环境,测试模型的规划、空间推理及探索能力,并提供细粒度的性能指标和公开排行榜,以促进AI技术的发展,适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

xbench

xbench是红杉中国推出的AI基准测试工具,采用双轨评估体系,追踪模型的理论能力上限与实际落地价值。其长青评估机制动态更新测试内容,确保时效性。xbench包含科学问题解答和中文互联网深度搜索两个核心评估集,按季度或每月更新题目。工具还提供垂直领域智能体评测、实时更新与LeaderBoard功能,适用于模型能力评估、真实效用量化、产品迭代指导等场景,推动AI系统在真实场景中的效用提升。

Agentar

Agentar是蚂蚁数科推出的智能体开发平台,面向金融机构提供一站式AI开发工具。平台基于大量金融数据与AI技术,支持零代码、低代码开发,具备高安全性与合规性。其核心功能涵盖可信智能体技术、高质量知识库、可视化编排及丰富服务组件,适用于智能投研、客服、风控、营销与合规管理等场景,助力金融机构提升决策效率与智能化水平。

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具,用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对,覆盖8大领域及26类认知任务,强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证,确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域,推动AI模型在多模态场景下的性能提升。

多面

多面是一款基于AI技术的招聘平台,提供AI在线面试、智能评估与模拟面试等功能,助力求职者提升面试能力,帮助企业高效筛选人才。平台支持多种招聘场景,具备智能管理、简历解析、批量邀约等实用功能,提升招聘效率与精准度。