GTA(General Tool Agents Benchmark)是由上海交通大学与上海AI实验室联合推出的一项基准测试,旨在评估大型语言模型(LLMs)在真实世界场景中的工具调用能力。该基准测试基于实际用户问题、已部署工具以及多模态输入输出,构建了一个全面且细致的评估体系,能够精准衡量LLMs在复杂情境下的工具运用水平。GTA涵盖了229个由人类设计的问题,涉及感知、操作、逻辑和创造性思维等多个领域,要求模型通过推理选择适当工具并制定操作流程,以应对现实世界中的复杂挑战。 GTA提供了14种经过实际部署验证的工具,覆盖感知、操作、逻辑及创造力四大类别,用于评估代理在具体任务中的执行效果。同时,GTA支持多模态输入输出,如空间场景、网页截图、表格、代码片段及手写/打印材料等,并采用细粒度评估指标,包括指令遵循准确率、工具选择准确率、参数预测准确率、答案总结准确率以及最终答案准确率。此外,GTA还支持逐步模式和端到端模式下的模型评测,为研究者提供更全面的性能参考。
发表评论 取消回复