GUI自动化

Computer Use OOTB

Computer Use OOTB 是一款基于开源框架的 GUI 自动化工具,支持跨平台操作与远程控制,借助 Claude 3.5 Computer Use API 实现从用户指令到桌面操作的端到端自动化。其核心技术包括实时视觉信息处理、历史上下文维护及动态反馈机制,适用于远程办公、自动化测试、教育培训、家庭自动化及游戏辅助等多种场景。

AutoDroid

AutoDroid-V2是由清华大学人工智能产业研究院开发的基于小型语言模型(SLM)的移动端GUI自动化工具,支持多步脚本生成与执行,提升任务完成效率并减少对云端模型的依赖。其核心功能包括自动化UI操作、代码生成与执行、应用文档生成,适用于日常辅助、办公、测试、智能家居及医疗等多个场景,具有较高的实用性和技术前瞻性。

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面(GUI)的智能代理模型,具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则,即可实现端到端的GUI任务自动化,适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术,支持高效的界面交互与精准的视觉定位。