视觉识别
Open Computer Agent
Open Computer Agent 是一款基于云端的 AI 工具,支持在 Linux 虚拟机中运行,能通过自然语言指令完成多种任务。结合视觉模型实现界面元素识别与交互,具备任务自动化、多任务处理能力,并提供云托管服务,适用于办公、教育、数据收集等场景。
Finedefics
Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型,专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述,结合对比学习方法,实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色,准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。
LogomakerrAI
Logomakerr.AI 是一个帮助初创公司和小企业主获得完美且负担得起的logo设计以完成其品牌的平台。