LLMDet是由阿里巴巴集团通义实验室、中山大学计算机科学与工程学院及鹏城实验室等机构联合开发的开放词汇目标检测模型。该模型通过与大型语言模型(LLM)协同训练,显著提升了目标检测的性能。其核心数据集为GroundingCap-1M,包含图像、定位标签和详细的图像级描述。通过LLM生成的长文本描述,进一步丰富了视觉特征,并结合标准的定位损失和描述生成损失进行训练。LLMDet在多个基准测试中表现出色,尤其在零样本检测任务中具有优异的泛化能力。作为视觉基础模型,它能够与LLM深度融合,推动多模态模型的发展,提升在视觉问答、图像描述等任务中的表现。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部