OmniParser

简介：OmniParser是一款由微软研究院开发的屏幕解析工具，能够将UI截图转换为结构化数据，通过识别可交互图标和提取功能语义，提升基于大型语言模型的UI代理系统的性能。它支持跨平台应用，无需依赖额外信息，适用于自动化软件测试、虚拟助手、辅助技术等多个领域。

AI小编 618 阅读 0 评论 29 点赞

项目地址

OmniParser是由微软研究院开发的一款专注于屏幕解析的工具，能够将用户界面的屏幕截图转换为结构化的数据。该工具专为提升基于大型语言模型（如GPT-4V）的UI代理系统性能而设计，通过精准识别可交互图标并理解截图元素的语义，增强代理的任务执行能力。OmniParser采用微调后的模型提取屏幕中的交互区域及其功能语义，在多个基准测试中显著提高了操作的精确度和代理的整体表现，且无需依赖额外的信息如HTML或视图层次结构。OmniParser兼容多种先进的大型语言模型，包括OpenAI的GPT系列和Anthropic的Sonnet等。

本文分类：AI项目与工具
本文标签：AI工具屏幕解析结构化数据 UI代理大型语言模型可交互图标 OCR 辅助技术自动化测试跨平台
浏览次数：618 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10793.html

上一篇 > Ditto
下一篇 > HuggingChat macOS

评论列表共有 0 条评论

暂无评论

OmniParser

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复