评估 - 智狐AI导航

LongCite

LongCite是清华大学研发的一项旨在提升大型语言模型在长文本问答中可信度和可验证性的项目。它通过生成细粒度的句子级引用，帮助用户验证模型回答的准确性。LongCite包含LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集，以及基于该数据集训练的模型。这些模型能够处理长文本内容，提供准确的问答服务，并附带可追溯的引用，增强信息的透明度和可靠性。

AI项目与工具 2025年06月12日 10 点赞 0 评论 751 浏览

Agentar

Agentar是蚂蚁数科推出的智能体开发平台，面向金融机构提供一站式AI开发工具。平台基于大量金融数据与AI技术，支持零代码、低代码开发，具备高安全性与合规性。其核心功能涵盖可信智能体技术、高质量知识库、可视化编排及丰富服务组件，适用于智能投研、客服、风控、营销与合规管理等场景，助力金融机构提升决策效率与智能化水平。

AI项目与工具 2025年06月11日 90 点赞 0 评论 749 浏览

MagicSchool AI

MagicSchool AI 是一款利用生成式AI的工具，旨在帮助教师在课堂中应用生成式AI。

教育学习 2025年06月05日 30 点赞 0 评论 748 浏览

ARCHITEChTURES

ARCHITEChTURES是一个基于AI的建筑设计平台，专注于自动化处理建筑设计中的重复性任务，如建模、测量和计算，以提高设计效率和质量。它支持多户型住宅建筑设计，提供CAD和BIM绘图功能，并具备测量、预算以及快速设计与共享能力。此外，平台还支持多种应用场景，包括可行性研究、场地规划、商业评估和概念迭代等。

AI项目与工具 2025年06月12日 34 点赞 0 评论 741 浏览

智能文档处理“百宝箱”

智能文档处理“百宝箱”是一款专注于文档解析的专业化工具，能够支持批量处理、多版式兼容，并具备高精度解析能力。其核心功能包括文档解析可视化、关键信息提取、解析效果评估等，广泛应用于企业文档管理、法律事务、金融数据分析、医疗记录处理及教育资源整合等领域，旨在优化各行业的文档处理流程，提升工作效率与准确性。

AI项目与工具 2025年06月12日 48 点赞 0 评论 738 浏览

TryOffDiff

TryOffDiff是一种基于扩散模型的虚拟试穿技术，通过高保真服装重建实现从单张穿着者照片生成标准化服装图像的功能。它能够精确捕捉服装的形状、纹理和复杂图案，并在生成模型评估和高保真重建领域具有广泛应用潜力，包括电子商务、个性化推荐、时尚设计展示及虚拟时尚秀等场景。

AI项目与工具 2025年06月12日 34 点赞 0 评论 737 浏览

PromptBench

一个基于 Pytorch 的 Python 包，用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API，以便对 LLM 进行评估。

Ai提示指令 2025年06月05日 72 点赞 0 评论 736 浏览

Sitespeak.ai

SiteSpeakAI可以通过使用您网站的内容、文档、知识自定义 AI 聊天机器人，训练一个可以回答你产品和服务的24/7 全天候实时提供服务的聊天机器人。

电商运营 2025年06月05日 11 点赞 0 评论 734 浏览

Promptim

Promptim是一款实验性的AI提示优化工具，旨在通过自动化优化循环提升AI系统在特定任务中的表现。其主要功能包括自动化提示优化、自定义评估器集成、人工反馈循环及多轮优化。Promptim支持文本生成、对话系统、机器翻译、情感分析和教育等多个应用场景，通过数据驱动的优化方法和元提示策略，帮助用户快速生成更高效的提示，显著提升AI系统的性能。

AI项目与工具 2025年06月12日 19 点赞 0 评论 734 浏览

MMBench

MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台，旨在全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力。平台包含约600个YouTube视频片段，覆盖16个类别，并配备高质量的人工标注问答对。通过自动化评估机制，MMBench-Video能够有效提升评估的精度和效率，为模型优化和学术研究提供重要支持。

AI项目与工具 2025年06月12日 52 点赞 0 评论 730 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期