ShowUI

简介：ShowUI是一款由新加坡国立大学Show Lab与微软合作开发的视觉-语言-行动模型，旨在提升图形用户界面（GUI）助手的工作效率。该模型通过UI引导的视觉令牌选择、交错视觉-语言-行动流以及高质量数据集的运用，实现了高效的零样本截图定位和GUI自动化功能，广泛应用于网页自动化、移动应用测试、桌面软件自动化及游戏自动化等领域。

AI小编 784 阅读 0 评论 27 点赞

项目地址

ShowUI是由新加坡国立大学Show Lab与微软联合研发的视觉-语言-行动模型，专注于提升图形用户界面（GUI）助手的工作效率。该模型通过引入UI引导的视觉令牌选择机制，减少了计算成本；采用交错视觉-语言-行动流统一处理多样化的GUI任务需求，并借助视觉-行动历史管理来优化训练效率。ShowUI基于一个小规模但高质量的指令跟随数据集进行训练，在零样本截图定位任务中实现了75.1%的准确率，且训练速度提升了1.4倍，展现了其在GUI视觉代理领域的潜力。

本文分类：AI项目与工具
本文标签：视觉-语言-行动 GUI助手零样本定位数据集优化自动化测试移动应用桌面软件游戏自动化可视化处理多模态模型
浏览次数：784 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10134.html

评论列表共有 0 条评论

暂无评论

ShowUI

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复