BALROG

简介：BALROG是一款用于评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏环境中推理能力的框架。它通过程序化生成的游戏环境，测试模型的规划、空间推理及探索能力，并提供细粒度的性能指标和公开排行榜，以促进AI技术的发展，适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

AI小编 572 阅读 0 评论 37 点赞

项目地址

BALROG是一个用于评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏环境中推理能力的框架，尤其关注模型在动态环境中的规划、空间推理及探索能力。它基于一系列具有挑战性的游戏环境，如程序化生成的NetHack等，揭示了现有模型在简单任务上的优势以及在复杂任务上的局限性，特别是在涉及视觉决策时的表现。BALROG提供了一个开放且详细的评估体系，旨在推动自主代理研究的进步。

本文分类：AI项目与工具
本文标签：AI工具自动化游戏AI 强化学习多模态处理空间推理视觉语言模型零样本学习评估框架机器人技术
浏览次数：572 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10231.html

评论列表共有 0 条评论

暂无评论

BALROG

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复