YOLO

介绍：腾讯AI实验室开发的一个实时目标检测工具，它能够自动识别和定位图像中的各种对象

567 阅读 0 评论 47 点赞

前往官网

YOLO-World，由腾讯AI实验室开发的一个实时目标检测工具，能够自动识别和定位图像中的各种对象。YOLO-World在速度和准确性方面都优于许多最先进的方法。

YOLO-World是下一代YOLO检测器，旨在进行实时开放词汇目标检测。它在大规模视觉语言数据集（包括Objects365、GQA、Flickr30K和CC3M）上进行了预训练，具备强大的零样本开放词汇能力和图像定位能力，无需额外训练即可进行实时目标检测。即便某些物品之前未见过，YOLO-World仍能检测并定位它们，适用于物体检测和开放词汇实例分割。

YOLO-World功能特点：

1、大规模学习：YOLO-World通过学习大量图片及其描述（如物品名称），积累了丰富的视觉和语言知识，使其能识别广泛物品。该项目在包括Objects365、GQA、Flickr30K和CC3M在内的大规模视觉-语言数据集上进行了预训练，使YOLO-World具备强大的零样本开放词汇能力和图像定位能力。

2、快速准确：YOLO-World在LVIS数据集上的零样本评估中达到35.4 AP，在V100上处理速度为52.0 FPS，速度和准确性均超越许多先进方法。即便在复杂场景中也能保持高准确率。YOLO-World声称比GroundingDINO快20倍。

3、零样本检测：最令人印象深刻的是，YOLO-World即使面对未曾见过的物品，也能通过先前学习和理解能力，利用图片中的线索和上下文信息，成功识别和定位这些新物品。这意味着我们无需训练就能检测新类别物体，只需提供类名作为输入文本提示，模型将返回这些对象的边界框（如果存在）。

4、理解物体：YOLO-World不仅依赖视觉信息，还结合语言信息，理解人类的语言描述，从而识别之前未见过的物体。

5、与现有开放词汇检测方法相比，YOLO-World模型至少快20倍，每秒可处理约52帧。

6、在LVIS对象检测数据集上设立了新的基准。

本文分类：Ai开源项目
本文标签：YOLO-World 目标检测实时零样本开放词汇图像定位 AP FPS Objects365 GQA
浏览次数：567 次浏览
发布日期：2025-06-05 18:08:54
本文链接：https://sihangdaima.com/ai-yuanma/5508.html

评论列表共有 0 条评论

暂无评论

YOLO

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复