视觉语言对齐

首页

视觉语言对齐

列表

默认

浏览次数

发布日期

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器，通过结合局部与全局token，提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息，增强细节感知能力。在多个基准测试中表现优异，尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略，提高模型泛化能力，适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

AI项目与工具 2025年06月12日 38 点赞 0 评论 934 浏览

视觉语言对齐 首页 视觉语言对齐

列表 默认 浏览次数 发布日期

ParGo

视觉语言对齐

首页

视觉语言对齐

列表

默认

浏览次数

发布日期