ParGo

简介：ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器，通过结合局部与全局token，提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息，增强细节感知能力。在多个基准测试中表现优异，尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略，提高模型泛化能力，适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

AI小编 800 阅读 0 评论 38 点赞

项目地址

ParGo是由字节团队与中山大学联合开发的一种多模态大语言模型连接器，旨在提升视觉与语言模态在多模态大语言模型（MLLMs）中的对齐效果。该模型通过结合局部token和全局token，并采用精心设计的注意力掩码机制，分别提取图像的局部和全局信息。这一方法在控制token数量的同时，增强了局部区域之间的关系建模能力，兼顾了图像细节与整体结构，有效解决了传统方法中对细节关注不足的问题。 ParGo的核心功能包括：通过Partial-Global Perception Block（PGP）和Cascaded Partial Perception Block（CPP）两个关键模块，实现视觉特征与大语言模型的高效连接；在多个MLLM基准测试中表现优异，特别是在需要细节感知的任务中显著优于其他方法；引入自监督学习策略，提升模型的上下文理解能力和泛化性能。其技术原理基于全局与局部视角的联合分析，利用可学习token和注意力机制，分别提取图像的局部与全局信息。此外，CPP模块通过逐步扩展感知范围，进一步优化模型对局部区域的理解。ParGo已在多个实际应用场景中展现出强大潜力，如视觉问答、图像字幕生成、跨模态检索及情感分析等。

本文分类：AI项目与工具
本文标签：多模态模型视觉语言对齐大语言模型图像理解自监督学习视觉问答图像字幕生成跨模态检索细节感知 AI工具
浏览次数：800 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9398.html

评论列表共有 0 条评论

暂无评论

ParGo

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复