Finedefics简介

Finedefics是由北京大学彭宇新教授团队研发的细粒度多模态大模型,旨在提升多模态大语言模型(MLLMs)在细粒度视觉识别(FGVR)任务中的性能。该模型通过引入对象的细粒度属性描述,并基于对比学习对齐视觉对象与类别名称的表示,有效解决了传统模型中视觉对象与细粒度子类别之间不匹配的问题。

Finedefics的核心功能

  • 增强细粒度视觉识别能力:Finedefics通过引入对象的细粒度属性描述,结合对比学习方法,实现视觉对象与类别名称的精准对齐,提升识别精度。
  • 数据与知识协同训练:模型利用大语言模型构建视觉对象的细粒度属性知识,并将其与图像和文本进行对齐,从而实现数据与知识的联合训练。
  • 优异的性能表现:在多个权威细粒度图像分类数据集(如Stanford Dog-120、Bird-200、FGVC-Aircraft等)上,Finedefics的平均准确率达到76.84%,展现出显著优势。
  • 属性描述与对齐机制:Finedefics通过提取区分细粒度子类别的关键特征,并转化为自然语言描述,作为视觉对象与类别名称之间的中间对齐点。

Finedefics的技术原理

  • 属性描述构建:Finedefics首先挖掘细粒度子类别的关键特征,如毛色、毛型等,并将其转化为自然语言形式的对象属性描述。
  • 属性增强对齐:通过将属性描述作为对齐目标,Finedefics利用对象-属性、属性-类别、类别-类别的对比学习,建立更精确的对应关系。
  • 对比学习与指令微调:在训练过程中,Finedefics采用对比学习方法优化视觉对象、属性描述和类别名称的表示,并通过指令微调进一步提升模型在细粒度任务中的表现。

Finedefics的项目资源

Finedefics的应用领域

  • 生物多样性监测:Finedefics可用于自动识别和分类不同物种,如鸟类、植物或动物。
  • 智能交通系统:适用于车辆识别与分类,如区分不同品牌及型号的汽车。
  • 智能零售管理:可应用于商品识别与分类,支持库存管理和自动结账系统。
  • 工业检测与质量控制:用于识别零部件的细微差异,辅助产品质量检测。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部