AndroidGen

简介：AndroidGen 是一个基于大语言模型（LLM）的智能代理框架，专注于提升 Agent 在数据稀缺环境下的任务执行能力。它通过无监督方式收集用户操作轨迹并进行训练，结合 ExpSearch、ReflectPlan、AutoCheck 和 StepCritic 四个核心模块，增强任务规划、执行和评估能力。该框架在 AndroidWorld 和 AitW 基准测试中表现出色，适用于自动化任务处理、

AI小编 903 阅读 0 评论 31 点赞

官网地址

AndroidGen 是什么

AndroidGen 是由智谱技术团队开发的一个框架，旨在提升基于大语言模型（LLM）的 Agent 在数据有限情况下的任务执行能力。该框架通过收集用户在执行任务时的操作轨迹，并利用这些数据训练语言模型，从而构建出无需人工标注的智能代理，显著增强了 LLM 完成复杂任务的能力。

AndroidGen 的主要功能

无监督数据收集与训练：AndroidGen 可以在不依赖人工标注的情况下，通过收集用户的操作轨迹来训练语言模型，生成高效的智能代理。
增强 Agent 的任务执行能力：该框架包含四个核心模块——ExpSearch、ReflectPlan、AutoCheck 和 StepCritic，有效提升了 LLM 执行复杂任务的能力。
- ExpSearch（经验搜索）：通过检索相似任务的历史轨迹，帮助 LLM 实现上下文学习，提高任务泛化能力。
- ReflectPlan（反思计划）：使 Agent 能够对当前环境进行自我反思并动态调整执行策略，提升长期推理能力。
- AutoCheck（自动检查）：实时验证每一步操作的有效性，降低任务失败的概率。
- StepCritic（步骤评估）：将任务分解为多个子目标，提供细粒度的评估反馈，用于模型优化。
高效的数据收集流程：AndroidGen 构建了高质量的数据采集系统，能够生成大量可复现的 Android 操作轨迹。

AndroidGen 的技术原理

模型训练：采用 LoRA 技术对 GLM-4-9B 和 Llama-3-70B 等模型进行微调，基于自动生成的数据集训练出 Android Agent 模型，避免了人工标注的依赖。
混合规划与执行机制：将任务规划和执行过程结合，使 LLM 同时具备任务规划与执行能力。
数据收集流程：
- 任务制定：基于 GPT-4o 生成约 300 条 Android 任务指令。
- Agent 采样：利用 AndroidWorld 和 GPT-4o 对任务轨迹进行采样。
- 轨迹记录：详细记录每一步的操作和环境信息，确保轨迹的可复现性。
- 轨迹评估：使用 StepCritic 对轨迹进行质量评估。
- 轨迹增强：通过数据扩充，构建包含超过 1000 条高质量轨迹的数据集。

AndroidGen 的性能表现

AndroidWorld 基准测试：
- AndroidGen 显著提升了相同基础模型的性能，相比 M3A 和 SeeAct，效果更为突出。
- AndroidGen + GPT-4o 的平均得分为 46.8，远高于其他组合。
- GLM-4-9B + AndroidGen 在参数更小且开源的前提下，性能优于 GPT-4o + M3A。
AitW 测试：在 Google Maps、YouTube 等主流应用中，AndroidGen 表现出色，具备良好的自然语言理解和交互能力。

AndroidGen 的应用场景

自动化任务处理：Agent 可根据自然语言指令完成邮件发送、提醒设置等任务。
跨应用交互：支持在不同应用间复制、粘贴数据。
智能导航：根据用户指令执行应用打开、文件查找等操作。
智能交互体验：通过自然语言理解，实现更人性化的用户交互。

本文分类：AI项目与工具
本文标签：AI工具大语言模型智能代理任务执行数据收集自然语言处理 LLM Android开发机器学习自动化
浏览次数：903 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8359.html

评论列表共有 0 条评论

暂无评论