AndroidGen 是什么

AndroidGen 是由智谱技术团队开发的一个框架,旨在提升基于大语言模型(LLM)的 Agent 在数据有限情况下的任务执行能力。该框架通过收集用户在执行任务时的操作轨迹,并利用这些数据训练语言模型,从而构建出无需人工标注的智能代理,显著增强了 LLM 完成复杂任务的能力。

AndroidGen 的主要功能

  • 无监督数据收集与训练:AndroidGen 可以在不依赖人工标注的情况下,通过收集用户的操作轨迹来训练语言模型,生成高效的智能代理。
  • 增强 Agent 的任务执行能力:该框架包含四个核心模块——ExpSearch、ReflectPlan、AutoCheck 和 StepCritic,有效提升了 LLM 执行复杂任务的能力。
    • ExpSearch(经验搜索):通过检索相似任务的历史轨迹,帮助 LLM 实现上下文学习,提高任务泛化能力。
    • ReflectPlan(反思计划):使 Agent 能够对当前环境进行自我反思并动态调整执行策略,提升长期推理能力。
    • AutoCheck(自动检查):实时验证每一步操作的有效性,降低任务失败的概率。
    • StepCritic(步骤评估):将任务分解为多个子目标,提供细粒度的评估反馈,用于模型优化。
  • 高效的数据收集流程:AndroidGen 构建了高质量的数据采集系统,能够生成大量可复现的 Android 操作轨迹。

AndroidGen 的技术原理

  • 模型训练:采用 LoRA 技术对 GLM-4-9B 和 Llama-3-70B 等模型进行微调,基于自动生成的数据集训练出 Android Agent 模型,避免了人工标注的依赖。
  • 混合规划与执行机制:将任务规划和执行过程结合,使 LLM 同时具备任务规划与执行能力。
  • 数据收集流程
    • 任务制定:基于 GPT-4o 生成约 300 条 Android 任务指令。
    • Agent 采样:利用 AndroidWorld 和 GPT-4o 对任务轨迹进行采样。
    • 轨迹记录:详细记录每一步的操作和环境信息,确保轨迹的可复现性。
    • 轨迹评估:使用 StepCritic 对轨迹进行质量评估。
    • 轨迹增强:通过数据扩充,构建包含超过 1000 条高质量轨迹的数据集。

AndroidGen 的性能表现

  • AndroidWorld 基准测试
    • AndroidGen 显著提升了相同基础模型的性能,相比 M3A 和 SeeAct,效果更为突出。
    • AndroidGen + GPT-4o 的平均得分为 46.8,远高于其他组合。
    • GLM-4-9B + AndroidGen 在参数更小且开源的前提下,性能优于 GPT-4o + M3A。
  • AitW 测试:在 Google Maps、YouTube 等主流应用中,AndroidGen 表现出色,具备良好的自然语言理解和交互能力。

AndroidGen 的应用场景

  • 自动化任务处理:Agent 可根据自然语言指令完成邮件发送、提醒设置等任务。
  • 跨应用交互:支持在不同应用间复制、粘贴数据。
  • 智能导航:根据用户指令执行应用打开、文件查找等操作。
  • 智能交互体验:通过自然语言理解,实现更人性化的用户交互。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部