AgentCPM-GUI是由清华大学与面壁智能团队联合开发的开源端侧GUI代理系统,专门针对中文应用场景进行了优化。该模型基于MiniCPM-V(80亿参数)构建,能够通过智能手机截图进行输入,并自主完成用户指定的操作任务。其训练数据涵盖大量中文安卓应用界面,显著提升了对GUI元素的理解和定位能力。在中文Grounding Benchmark和Agent Benchmark中,AgentCPM-GUI均表现出色,成为首个专注于中文应用优化的开源GUI代理系统。 AgentCPM-GUI具备多项核心功能,包括理解并操作多种中文应用、自动执行任务步骤、精准识别和定位GUI元素以及OCR文本识别与操作。技术上,它采用大规模中文界面数据预训练,结合强化微调(RFT)策略优化任务执行效果,并通过紧凑的动作空间设计提升移动端部署效率。项目已开源,用户可通过GitHub和HuggingFace获取相关资源。 该工具适用于智能助手、自动化测试、老年关怀、视障人士辅助及企业应用自动化等多个场景,具有广泛的实用价值。
发表评论 取消回复