AGUVIS是由香港大学与Salesforce联合研发的统一纯视觉框架,专门针对自主图形用户界面(GUI)智能体设计。该框架能够在多种平台上运行,包括网页、桌面及移动设备。AGUVIS通过图像观察与自然语言指令的关联性,运用一致化的动作空间实现跨平台泛化能力。此外,它结合了显式的规划与推理机制,增强了代理在复杂数字环境中自主导航与交互的能力。通过大规模数据集及两阶段训练流程,AGUVIS在离线与在线场景中均展现出卓越的性能,成为首个无需依赖外部闭源模型即可独立完成任务的纯视觉GUI代理。
AGUVIS是由香港大学与Salesforce联合研发的统一纯视觉框架,专门针对自主图形用户界面(GUI)智能体设计。该框架能够在多种平台上运行,包括网页、桌面及移动设备。AGUVIS通过图像观察与自然语言指令的关联性,运用一致化的动作空间实现跨平台泛化能力。此外,它结合了显式的规划与推理机制,增强了代理在复杂数字环境中自主导航与交互的能力。通过大规模数据集及两阶段训练流程,AGUVIS在离线与在线场景中均展现出卓越的性能,成为首个无需依赖外部闭源模型即可独立完成任务的纯视觉GUI代理。
发表评论 取消回复