OmniParser是由微软研究院开发的一款专注于屏幕解析的工具,能够将用户界面的屏幕截图转换为结构化的数据。该工具专为提升基于大型语言模型(如GPT-4V)的UI代理系统性能而设计,通过精准识别可交互图标并理解截图元素的语义,增强代理的任务执行能力。OmniParser采用微调后的模型提取屏幕中的交互区域及其功能语义,在多个基准测试中显著提高了操作的精确度和代理的整体表现,且无需依赖额外的信息如HTML或视图层次结构。OmniParser兼容多种先进的大型语言模型,包括OpenAI的GPT系列和Anthropic的Sonnet等。
发表评论 取消回复