PromptBench 一个基于 Pytorch 的 Python 包,用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API,以便对 LLM 进行评估。 Ai提示指令 2025年06月05日 72 点赞 0 评论 365 浏览
MMBench MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台,旨在全面评估大型视觉语言模型(LVLMs)在视频理解方面的能力。平台包含约600个YouTube视频片段,覆盖16个类别,并配备高质量的人工标注问答对。通过自动化评估机制,MMBench-Video能够有效提升评估的精度和效率,为模型优化和学术研究提供重要支持。 AI项目与工具 2025年06月12日 52 点赞 0 评论 351 浏览
LLM Course 一个关于LLMs课程的集合,包含学习路线图和Colab笔记本,帮助用户从基础到高级逐步掌握LLMs的知识和应用。 Ai学习资源 2025年06月05日 85 点赞 0 评论 350 浏览
天目 天目是一款由人民网开发的AI内容检测工具,能够准确识别文本中由人工智能生成的内容,准确率达到93%。该工具支持DOC和TXT格式文件,能够处理高达10万字的文本。它通过高亮显示AI生成的句段,并生成PDF格式的检测报告,方便用户查阅和分享。同时,天目承诺不保存任何用户数据,确保用户数据的安全与隐私。 AI项目与工具 2025年06月12日 83 点赞 0 评论 346 浏览
MMSearch MMSearch 是一款用于评估大型多模态模型(LMMs)搜索能力的基准测试工具,包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结,通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异,且增加计算量比扩大模型规模更具优势。 AI项目与工具 2025年06月12日 44 点赞 0 评论 339 浏览
Crawl4LLM Crawl4LLM是由清华与CMU联合开发的智能爬虫系统,通过评估网页对大语言模型预训练的价值,提升数据获取效率。支持多种爬取模式,具备状态保存、数据可视化功能,并与DCLM框架兼容。采用多维度评分机制优化爬取策略,减少低价值内容抓取,降低对网站负担,适用于LLM预训练、数据集构建等场景。 AI项目与工具 2025年06月12日 55 点赞 0 评论 339 浏览
沃研Turbo大模型 沃恩智慧公司专为大学生设计的科研大模型,有期刊推荐、文献摘要、论文精读、翻译润色、创新点评估、个性化论文推荐以及AI降重等功能。 Ai平台模型 2025年06月05日 51 点赞 0 评论 339 浏览
AlphaEvolve AlphaEvolve是谷歌DeepMind开发的通用科学代理,结合大型语言模型与进化算法,用于设计和优化复杂算法。它在数据中心调度、硬件设计、AI训练和数学问题解决等领域取得显著成果,如优化矩阵乘法、提升系统效率等。系统采用自动化评估机制,支持跨领域应用,具备高效计算和持续优化能力。 AI项目与工具 2025年06月11日 98 点赞 0 评论 324 浏览