LLMDet

简介：LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器，能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息，实现高精度的零样本检测，并支持图像描述生成与多模态任务优化，适用于多种实际应用场景。

AI小编 556 阅读 0 评论 68 点赞

LLMDet是由阿里巴巴集团通义实验室、中山大学计算机科学与工程学院及鹏城实验室等机构联合开发的开放词汇目标检测模型。该模型通过与大型语言模型（LLM）协同训练，显著提升了目标检测的性能。其核心数据集为GroundingCap-1M，包含图像、定位标签和详细的图像级描述。通过LLM生成的长文本描述，进一步丰富了视觉特征，并结合标准的定位损失和描述生成损失进行训练。LLMDet在多个基准测试中表现出色，尤其在零样本检测任务中具有优异的泛化能力。作为视觉基础模型，它能够与LLM深度融合，推动多模态模型的发展，提升在视觉问答、图像描述等任务中的表现。

本文分类：AI项目与工具
本文标签：AI 目标检测多模态模型开放词汇 LLM 图像理解零样本学习视觉模型深度学习机器学习
浏览次数：556 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9006.html

评论列表共有 0 条评论

暂无评论

LLMDet

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复