YOLO-World,由腾讯AI实验室开发的一个实时目标检测工具,能够自动识别和定位图像中的各种对象。YOLO-World在速度和准确性方面都优于许多最先进的方法。

YOLO-World是下一代YOLO检测器,旨在进行实时开放词汇目标检测。它在大规模视觉语言数据集(包括Objects365、GQA、Flickr30K和CC3M)上进行了预训练,具备强大的零样本开放词汇能力和图像定位能力,无需额外训练即可进行实时目标检测。即便某些物品之前未见过,YOLO-World仍能检测并定位它们,适用于物体检测和开放词汇实例分割。

YOLO-World功能特点:

1、大规模学习:YOLO-World通过学习大量图片及其描述(如物品名称),积累了丰富的视觉和语言知识,使其能识别广泛物品。该项目在包括Objects365、GQA、Flickr30K和CC3M在内的大规模视觉-语言数据集上进行了预训练,使YOLO-World具备强大的零样本开放词汇能力和图像定位能力。

2、快速准确:YOLO-World在LVIS数据集上的零样本评估中达到35.4 AP,在V100上处理速度为52.0 FPS,速度和准确性均超越许多先进方法。即便在复杂场景中也能保持高准确率。YOLO-World声称比GroundingDINO快20倍。

3、零样本检测:最令人印象深刻的是,YOLO-World即使面对未曾见过的物品,也能通过先前学习和理解能力,利用图片中的线索和上下文信息,成功识别和定位这些新物品。这意味着我们无需训练就能检测新类别物体,只需提供类名作为输入文本提示,模型将返回这些对象的边界框(如果存在)。

4、理解物体:YOLO-World不仅依赖视觉信息,还结合语言信息,理解人类的语言描述,从而识别之前未见过的物体。

5、与现有开放词汇检测方法相比,YOLO-World模型至少快20倍,每秒可处理约52帧。

6、在LVIS对象检测数据集上设立了新的基准。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部