评估 - 智狐AI导航

天目

天目是一款由人民网开发的AI内容检测工具，能够准确识别文本中由人工智能生成的内容，准确率达到93%。该工具支持DOC和TXT格式文件，能够处理高达10万字的文本。它通过高亮显示AI生成的句段，并生成PDF格式的检测报告，方便用户查阅和分享。同时，天目承诺不保存任何用户数据，确保用户数据的安全与隐私。

AI项目与工具 2025年06月12日 83 点赞 0 评论 466 浏览

MMSearch

MMSearch 是一款用于评估大型多模态模型（LMMs）搜索能力的基准测试工具，包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结，通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异，且增加计算量比扩大模型规模更具优势。

AI项目与工具 2025年06月12日 44 点赞 0 评论 470 浏览

Crawl4LLM

Crawl4LLM是由清华与CMU联合开发的智能爬虫系统，通过评估网页对大语言模型预训练的价值，提升数据获取效率。支持多种爬取模式，具备状态保存、数据可视化功能，并与DCLM框架兼容。采用多维度评分机制优化爬取策略，减少低价值内容抓取，降低对网站负担，适用于LLM预训练、数据集构建等场景。

AI项目与工具 2025年06月12日 55 点赞 0 评论 472 浏览

多面

多面是一款基于AI技术的招聘平台，提供AI在线面试、智能评估与模拟面试等功能，助力求职者提升面试能力，帮助企业高效筛选人才。平台支持多种招聘场景，具备智能管理、简历解析、批量邀约等实用功能，提升招聘效率与精准度。

AI项目与工具 2025年06月12日 39 点赞 0 评论 474 浏览

LLM Course

一个关于LLMs课程的集合，包含学习路线图和Colab笔记本，帮助用户从基础到高级逐步掌握LLMs的知识和应用。

Ai学习资源 2025年06月05日 85 点赞 0 评论 477 浏览

MMBench

MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台，旨在全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力。平台包含约600个YouTube视频片段，覆盖16个类别，并配备高质量的人工标注问答对。通过自动化评估机制，MMBench-Video能够有效提升评估的精度和效率，为模型优化和学术研究提供重要支持。

AI项目与工具 2025年06月12日 52 点赞 0 评论 486 浏览

PromptBench

一个基于 Pytorch 的 Python 包，用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API，以便对 LLM 进行评估。

Ai提示指令 2025年06月05日 72 点赞 0 评论 490 浏览

VSI

VSI-Bench是一种用于评估多模态大型语言模型（MLLMs）视觉空间智能的基准测试工具，包含超过5000个问题-答案对，覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务，可全面评估模型的空间认知、理解和记忆能力，并提供标准化的测试集用于模型性能对比。 ---

AI项目与工具 2025年06月12日 10 点赞 0 评论 497 浏览

FACTS Grounding

FACTS Grounding是一款由谷歌DeepMind研发的基准测试工具，专门用于评估大型语言模型在生成事实准确文本方面的能力。它通过设置包含多个领域的复杂任务，要求模型基于长文档生成响应，并采用两阶段评估流程验证事实准确性及避免“幻觉”。FACTS Grounding不仅支持信息检索与问答，还能应用于内容摘要生成、文档改写以及客户服务等领域，为模型提供全面而可靠的性能评估。

AI项目与工具 2025年06月12日 38 点赞 0 评论 500 浏览

Kimi学术搜索

Kimi学术搜索是一款基于人工智能技术的学术研究辅助工具，通过深度推理、信息整合及实时交互等功能，帮助用户高效地获取学术资源。其主要特点包括多语言支持、自我评估改进机制以及对复杂任务的精准响应能力，广泛应用于学术研究、市场分析、学习辅导和技术支持等领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 501 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期

天目