GTA

简介：GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试，专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题，涉及多个领域，并通过多模态输入输出和细粒度评估指标，全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域，助力提升人工智能系统的综合性能。

AI小编 667 阅读 0 评论 20 点赞

项目地址

GTA（General Tool Agents Benchmark）是由上海交通大学与上海AI实验室联合推出的一项基准测试，旨在评估大型语言模型（LLMs）在真实世界场景中的工具调用能力。该基准测试基于实际用户问题、已部署工具以及多模态输入输出，构建了一个全面且细致的评估体系，能够精准衡量LLMs在复杂情境下的工具运用水平。GTA涵盖了229个由人类设计的问题，涉及感知、操作、逻辑和创造性思维等多个领域，要求模型通过推理选择适当工具并制定操作流程，以应对现实世界中的复杂挑战。 GTA提供了14种经过实际部署验证的工具，覆盖感知、操作、逻辑及创造力四大类别，用于评估代理在具体任务中的执行效果。同时，GTA支持多模态输入输出，如空间场景、网页截图、表格、代码片段及手写/打印材料等，并采用细粒度评估指标，包括指令遵循准确率、工具选择准确率、参数预测准确率、答案总结准确率以及最终答案准确率。此外，GTA还支持逐步模式和端到端模式下的模型评测，为研究者提供更全面的性能参考。

本文分类：AI项目与工具
本文标签：GTA 大型语言模型工具调用多模态输入输出细粒度评估智能助理自动化服务教育工具科研评估 AI技术
浏览次数：667 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10523.html

评论列表共有 0 条评论

暂无评论

GTA

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复