基准测试 - 智狐AI导航

DNA-RENDERING数字人库

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库，它为广泛的研究任务提供了丰富的数据和高质量的注释。

Ai视频生成 2026年06月29日 0 点赞 0 评论 810 浏览

K2

地球科学的开源大预言模型，首先在收集和清理过的地球科学文献（包括地球科学开放存取论文和维基百科页面）上对 LLaMA 进行进一步预训练，然后使用知识密集型指令调整数据（GeoSig...

Ai平台模型 2026年06月29日 0 点赞 0 评论 821 浏览

DNA

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库，它为广泛的研究任务提供了丰富的数据和高质量的注释。

创作工具 2026年06月29日 0 点赞 0 评论 665 浏览

Phi-3是由微软研究院开发的一系列小型语言模型，包括phi-3-mini、phi-3-small和phi-3-medium三个版本。这些模型通过优化的数据集和算法，在保持较小参数规模的同时，展现出与大型模型相当的语言理解和推理能力。phi-3-mini模型仅有3.8亿参数，但在多项基准测试中表现优异，甚至能在智能手机上运行。Phi-3系列模型的研发体现了在数据工程和模型优化领域的最新进展，为未来

AI项目与工具 2024年01月01日 42 点赞 0 评论 760 浏览

Not Diamond

Not Diamond 是一款AI模型路由器，可根据任务需求智能选择最合适的AI模型，提升效率并降低成本。其主要功能包括智能模型选择、性能优化、自定义模型路由器以及快速响应等。Not Diamond 在多个基准测试中表现出色，并提供快速任务执行和智能权衡功能，确保隐私安全。 ---

AI项目与工具 2025年06月12日 31 点赞 0 评论 665 浏览

Reflection 70B

Reflection 70B是一款基于Meta的Llama 3.1 70B Instruct构建的开源AI大模型，采用“Reflection-Tuning”技术，能够在生成最终回答前检测并纠正错误，显著提高输出的准确性。该模型特别适用于需要高精度推理的任务，并具备出色的零样本推理能力。用户可以通过引入特殊token，以更结构化的方式与模型交互。此外，Reflection 70B支持通过Huggin

AI项目与工具 2025年06月12日 98 点赞 0 评论 800 浏览

Pixtral 12B

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型，能够同时处理图像和文本数据。该模型包含120亿参数，大小约为24GB，基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力，能够执行图像描述生成、统计照片中的物体数量等任务，并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源，用户可以自由下载和微调该模型。应用场景广泛，包括

AI项目与工具 2025年06月12日 69 点赞 0 评论 816 浏览

Molmo 72B

Molmo 72B是一款由艾伦人工智能研究所推出的开源多模态AI模型，集成了图像和文本处理能力，适用于图像描述生成、视觉问答、文档解析及多模态交互等多种任务。凭借其强大的视觉编码能力和先进的模型架构，Molmo 72B在学术基准测试中表现优异，为开源AI技术的发展做出了重要贡献。

AI项目与工具 2025年06月12日 69 点赞 0 评论 641 浏览

SimpleQA

SimpleQA是OpenAI开发的一个基准测试工具，用于评估大型语言模型在回答简短、事实性问题时的表现。它包含4326个问题，每个问题都有唯一的正确答案，并通过严格的验证流程确保质量。SimpleQA不仅能够测试模型的事实性回答能力，还能衡量其自我认知水平和校准能力，广泛应用于模型开发、学术研究及教育工具等领域。

AI项目与工具 2025年06月12日 93 点赞 0 评论 835 浏览

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架，集成了文本和图像模态操作环境，提供标准化的基准测试任务。它通过支持多种模型类型（LLMs 和 LMMs），覆盖九个应用场景的 138 项任务，有效提升了开源模型的性能。此外，AndroidLab 提供了丰富的评估指标和操作模式，助力研究者优化模型表现并推动开源解决方案的发展。

AI项目与工具 2025年06月12日 38 点赞 0 评论 750 浏览

基准测试

首页

基准测试

列表

默认

浏览次数

发布日期