评估 - 智狐AI导航

PromptBench

一个基于 Pytorch 的 Python 包，用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API，以便对 LLM 进行评估。

Ai提示指令 2025年06月05日 72 点赞 0 评论 490 浏览

MMBench

MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台，旨在全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力。平台包含约600个YouTube视频片段，覆盖16个类别，并配备高质量的人工标注问答对。通过自动化评估机制，MMBench-Video能够有效提升评估的精度和效率，为模型优化和学术研究提供重要支持。

AI项目与工具 2025年06月12日 52 点赞 0 评论 486 浏览

LLM Course

一个关于LLMs课程的集合，包含学习路线图和Colab笔记本，帮助用户从基础到高级逐步掌握LLMs的知识和应用。

Ai学习资源 2025年06月05日 85 点赞 0 评论 477 浏览

多面

多面是一款基于AI技术的招聘平台，提供AI在线面试、智能评估与模拟面试等功能，助力求职者提升面试能力，帮助企业高效筛选人才。平台支持多种招聘场景，具备智能管理、简历解析、批量邀约等实用功能，提升招聘效率与精准度。

AI项目与工具 2025年06月12日 39 点赞 0 评论 473 浏览

Crawl4LLM

Crawl4LLM是由清华与CMU联合开发的智能爬虫系统，通过评估网页对大语言模型预训练的价值，提升数据获取效率。支持多种爬取模式，具备状态保存、数据可视化功能，并与DCLM框架兼容。采用多维度评分机制优化爬取策略，减少低价值内容抓取，降低对网站负担，适用于LLM预训练、数据集构建等场景。

AI项目与工具 2025年06月12日 55 点赞 0 评论 472 浏览

MMSearch

MMSearch 是一款用于评估大型多模态模型（LMMs）搜索能力的基准测试工具，包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结，通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异，且增加计算量比扩大模型规模更具优势。

AI项目与工具 2025年06月12日 44 点赞 0 评论 470 浏览

天目

天目是一款由人民网开发的AI内容检测工具，能够准确识别文本中由人工智能生成的内容，准确率达到93%。该工具支持DOC和TXT格式文件，能够处理高达10万字的文本。它通过高亮显示AI生成的句段，并生成PDF格式的检测报告，方便用户查阅和分享。同时，天目承诺不保存任何用户数据，确保用户数据的安全与隐私。

AI项目与工具 2025年06月12日 83 点赞 0 评论 466 浏览

沃研Turbo大模型

沃恩智慧公司专为大学生设计的科研大模型，有期刊推荐、文献摘要、论文精读、翻译润色、创新点评估、个性化论文推荐以及AI降重等功能。

Ai平台模型 2025年06月05日 51 点赞 0 评论 465 浏览

Umax

Umax是一款基于AI的面部分析工具，通过上传自拍照提供颜值评分、面部特征分析及个性化改进建议。具备进度跟踪、虚拟化妆、滤镜等功能，帮助用户提升外貌与自信。适用于日常美容、自我提升及美学学习，适合关注形象管理的用户。

AI项目与工具 2025年06月12日 88 点赞 0 评论 458 浏览

AlphaEvolve

AlphaEvolve是谷歌DeepMind开发的通用科学代理，结合大型语言模型与进化算法，用于设计和优化复杂算法。它在数据中心调度、硬件设计、AI训练和数学问题解决等领域取得显著成果，如优化矩阵乘法、提升系统效率等。系统采用自动化评估机制，支持跨领域应用，具备高效计算和持续优化能力。

AI项目与工具 2025年06月11日 98 点赞 0 评论 458 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期