Cradle是什么?

Cradle 是一个由昆仑万维和北京智源人工智能研究院等机构联合推出的通用计算机控制(GCC)多模态 AI 框架。它通过屏幕截图作为输入,以键盘和鼠标操作作为输出,让 AI 代理能够像人类一样直接控制计算机完成各种任务。Cradle 拥有信息收集、自我反思、任务推断、技能策划、动作规划和记忆管理等核心功能,广泛应用于游戏、日常软件操作和专业软件操作等领域。

Cradle 核心功能

  • 信息收集:从屏幕图像和音频中提取多模态信息,用于决策。

  • 自我反思:评估先前行动的成功与否,分析失败原因,以指导后续行动。

  • 任务推断:根据当前环境和历史信息,推断并选择最佳的下一个任务。

  • 技能策划:生成和更新与给定任务相关的技能,以适应不同的计算机操作需求。

  • 动作规划:为键盘和鼠标控制生成具体操作,将策略转化为可执行的命令。

  • 记忆与知识管理:拥有长期和短期记忆系统,存储过去的经验和技能,在需要时进行检索和应用。

Cradle 应用场景

  • 游戏环境:如《荒野大镖客2》《星露谷物语》《城市天际线》等。

  • 日常软件操作:如浏览器、邮件客户端、办公软件等。

  • 专业软件操作:如图形设计或视频编辑软件。

Cradle 技术原理

  • 多模态输入处理:接收并处理屏幕图像和音频的多模态输入,模拟人类感知方式理解计算机界面和环境。

  • 信息提取与理解:利用大型多模态模型(如 GPT-4V)识别图像中的视觉元素、文本信息和音频中的指令或反馈。

  • 自我反思机制:通过反思模块评估之前执行动作是否成功,并分析失败原因。

  • 任务推断与规划:确定当前的优先任务,并制定出新动作完成任务。

  • 技能生成与更新:根据当前任务生成新的技能或更新现有技能。

Cradle 特点

  • 通用性:不依赖任何内部 API,能够与任意开闭源软件交互。

  • 强大的推理能力:基于大型语言模型,能够进行复杂任务规划和执行。

  • 自我改进:通过自我反思机制不断优化性能。

  • 技能积累:可以逐步积累和复用各种操作技能。

Cradle 已成功应用于《荒野大镖客2》、《星露谷物语》、《城市:天际线》等游戏,以及 Chrome 浏览器、Outlook 邮箱等软件。

Cradle 相关链接

Cradle 项目主页: https://baai-agents.github.io/Cradle/

Cradle 代码仓库: https://github.com/BAAI-Agents/Cradle

Cradle 论文: https://arxiv.org/abs/2403.03186

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部