评估 - 智狐AI导航

AgentSociety

AgentSociety是由清华大学开发的基于大语言模型的社会模拟平台，通过构建具有“类人心智”的智能体，模拟复杂的社会行为与现象。平台支持城市环境建模、大规模社会模拟和科研工具集成，适用于社会舆论传播、政策评估、社会极化分析及灾害响应研究。其技术特点包括异步模拟架构、分布式计算和MQTT通信，具备高度可扩展性和实时交互能力。

AI项目与工具 2025年06月12日 21 点赞 0 评论 960 浏览

LalaEval

LalaEval是由香港中文大学与货拉拉数据科学团队联合开发的针对特定领域大语言模型的人类评估框架。它提供了一套完整的端到端评估流程，涵盖领域界定、能力指标构建、评测集生成、标准制定及结果分析。通过争议度与评分波动分析，有效减少主观误差，提升评估质量。该工具已在物流领域成功应用，并具备良好的跨领域扩展性，适用于企业内部模型优化与多场景评测。

AI项目与工具 2025年06月12日 29 点赞 0 评论 955 浏览

微点

Abit是一款基于生成式大语言模型的智能考试系统，可将文本内容转化为多样化考题，支持多种题型生成、即时评分、考试报告分析及个性化学习建议等功能，广泛应用于企业培训、知识考核等领域，助力提升学习效率与培训效果。

AI项目与工具 2025年06月12日 31 点赞 0 评论 953 浏览

TryOffAnyone

TryOffAnyone是一款基于Latent Diffusion Models技术的AI工具，专注于从人物照片中提取服装区域并生成平铺展示图。它具备在线图片处理、智能服装识别、背景去除和图像优化等功能，广泛应用于电商平台的商品展示、个性化推荐、库存管理和图像检索等领域，帮助提升用户体验和运营效率。

AI项目与工具 2025年06月12日 41 点赞 0 评论 948 浏览

Sky

Sky-T1是由加州大学伯克利分校NovaSky团队开发的开源推理AI模型，具备高性价比和强大推理能力。其训练成本仅450美元，数据来源经过优化处理，可在数学、编程和科学领域表现出色。模型支持用户从零复现，适用于教育、科研及软件开发等场景。在MATH500和LiveCodeBench测试中，Sky-T1表现优于部分早期OpenAI模型，展现出良好的实用价值。

AI项目与工具 2025年06月12日 12 点赞 0 评论 945 浏览

Self

Self-Taught Evaluators是一种无需人工标注数据的模型评估框架，通过自我训练方式增强大型语言模型（LLM）的评估能力。其核心在于利用LLM生成对比输出并进行迭代优化，显著提升了模型评估的准确性，达到了与顶级奖励模型相媲美的效果，广泛适用于语言模型开发、内容评估、教育科研以及技术支持等领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 931 浏览

WorldScore是由斯坦福大学推出的统一世界生成模型评估基准，支持3D、4D、图像到视频（I2V）和文本到视频（T2V）等多种模态。它从可控性、质量和动态性三个维度进行评估，涵盖3000个测试样本，包括静态与动态、室内与室外、逼真与风格化等多种场景。WorldScore具备多场景生成、长序列支持、图像条件生成、多风格适配等功能，适用于图像到视频、图像到3D生成以及自动驾驶场景模拟等应用，为研究

AI项目与工具 2025年06月12日 87 点赞 0 评论 928 浏览

唤醒食物

唤醒食物是一个基于AI技术的个性化食疗方案平台。它提供1781种食物的营养成分查询，科学食疗方案以及补充剂的真实作用评估。平台还提供食物对比工具和营养速查榜，帮助用户优化饮食计划。此外，唤醒食物还提供全球健康资讯，旨在助力用户的健康管理。

AI项目与工具 2025年06月12日 65 点赞 0 评论 925 浏览

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准，用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题，涵盖26个子类别，支持多层次标注和细粒度异常注释，并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现，揭示了这些模型在合成数据检测任务中的优势与不足。

AI项目与工具 2025年06月12日 50 点赞 0 评论 924 浏览

VQAScore

VQAScore是一种基于视觉问答（VQA）模型的评估工具，用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度，无需额外标注，提供更精确的结果。VQAScore支持多种生成任务，包括图像、视频及3D模型，并能作为多模态学习的研究工具，在自动化测试和质量控制中发挥重要作用。

AI项目与工具 2025年06月12日 86 点赞 0 评论 918 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期