ShowUI是由新加坡国立大学Show Lab与微软联合研发的视觉-语言-行动模型,专注于提升图形用户界面(GUI)助手的工作效率。该模型通过引入UI引导的视觉令牌选择机制,减少了计算成本;采用交错视觉-语言-行动流统一处理多样化的GUI任务需求,并借助视觉-行动历史管理来优化训练效率。ShowUI基于一个小规模但高质量的指令跟随数据集进行训练,在零样本截图定位任务中实现了75.1%的准确率,且训练速度提升了1.4倍,展现了其在GUI视觉代理领域的潜力。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部