PaliGemma 2是由Google DeepMind基于Gemma 2语言模型家族开发的全新视觉语言模型(VLM)。作为PaliGemma的升级版本,该模型集成了SigLIP-So400m视觉编码器与不同规模的Gemma 2模型,支持多分辨率图像处理,并通过多阶段训练实现广泛的知识迁移能力。PaliGemma 2在学术任务中表现优异,特别是在高分辨率配置下,其性能尤为突出。此外,它还在OCR、音乐乐谱识别及医学图像报告生成等领域展现了创新成果。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部