评估 - 智狐AI导航

PromptBench

一个基于 Pytorch 的 Python 包，用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API，以便对 LLM 进行评估。

Ai提示指令 2025年06月05日 72 点赞 0 评论 736 浏览

TryOffDiff

TryOffDiff是一种基于扩散模型的虚拟试穿技术，通过高保真服装重建实现从单张穿着者照片生成标准化服装图像的功能。它能够精确捕捉服装的形状、纹理和复杂图案，并在生成模型评估和高保真重建领域具有广泛应用潜力，包括电子商务、个性化推荐、时尚设计展示及虚拟时尚秀等场景。

AI项目与工具 2025年06月12日 34 点赞 0 评论 737 浏览

智能文档处理“百宝箱”

智能文档处理“百宝箱”是一款专注于文档解析的专业化工具，能够支持批量处理、多版式兼容，并具备高精度解析能力。其核心功能包括文档解析可视化、关键信息提取、解析效果评估等，广泛应用于企业文档管理、法律事务、金融数据分析、医疗记录处理及教育资源整合等领域，旨在优化各行业的文档处理流程，提升工作效率与准确性。

AI项目与工具 2025年06月12日 48 点赞 0 评论 738 浏览

ARCHITEChTURES

ARCHITEChTURES是一个基于AI的建筑设计平台，专注于自动化处理建筑设计中的重复性任务，如建模、测量和计算，以提高设计效率和质量。它支持多户型住宅建筑设计，提供CAD和BIM绘图功能，并具备测量、预算以及快速设计与共享能力。此外，平台还支持多种应用场景，包括可行性研究、场地规划、商业评估和概念迭代等。

AI项目与工具 2025年06月12日 34 点赞 0 评论 741 浏览

MagicSchool AI

MagicSchool AI 是一款利用生成式AI的工具，旨在帮助教师在课堂中应用生成式AI。

教育学习 2025年06月05日 30 点赞 0 评论 748 浏览

Agentar

Agentar是蚂蚁数科推出的智能体开发平台，面向金融机构提供一站式AI开发工具。平台基于大量金融数据与AI技术，支持零代码、低代码开发，具备高安全性与合规性。其核心功能涵盖可信智能体技术、高质量知识库、可视化编排及丰富服务组件，适用于智能投研、客服、风控、营销与合规管理等场景，助力金融机构提升决策效率与智能化水平。

AI项目与工具 2025年06月11日 90 点赞 0 评论 749 浏览

LongCite

LongCite是清华大学研发的一项旨在提升大型语言模型在长文本问答中可信度和可验证性的项目。它通过生成细粒度的句子级引用，帮助用户验证模型回答的准确性。LongCite包含LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集，以及基于该数据集训练的模型。这些模型能够处理长文本内容，提供准确的问答服务，并附带可追溯的引用，增强信息的透明度和可靠性。

AI项目与工具 2025年06月12日 10 点赞 0 评论 751 浏览

MMRole是一个由中国人民大学高瓴人工智能学院研究团队开发的多模态角色扮演智能体（MRPA）框架。该框架通过整合图像和文本，使智能体能够以特定角色进行更为自然和沉浸式的对话。MMRole框架包括一个大规模、高质量的多模态数据集和一个全面的评估方法，用于开发和评估MRPAs的性能。该框架为创建能够理解和生成与图像相关对话内容的智能体提供了新的可能，并扩展了其在教育、娱乐、客户服务、社交模拟和内容创

AI项目与工具 2025年06月12日 28 点赞 0 评论 752 浏览

WiS

WiS是一个基于“谁是卧底”游戏规则的在线AI竞赛平台，专为评估和分析大型语言模型（LLMs）在多智能体系统中的行为而设计。平台提供统一的模型评估接口、实时排行榜、全面的行为评估功能以及详尽的数据可视化支持，旨在为研究人员和开发者提供一个直观且高效的工具，用于测试和优化智能体在复杂交互环境中的表现。

AI项目与工具 2025年06月12日 20 点赞 0 评论 760 浏览

OmniThink.AI

OmniThink.AI是一款面向零售和消费品行业的AI平台，整合预测性与生成性AI技术，助力企业加速产品设计、营销及供应链管理。平台支持自然语言解释、全球数据模型、多系统集成，并提供可持续性评估与个性化推荐功能，提升运营效率与市场响应速度。

AI项目与工具 2025年06月12日 59 点赞 0 评论 760 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期