LEOPARD是由腾讯AI Lab西雅图实验室研发的视觉语言模型,专注于处理包含大量文本信息的多图像任务。该模型通过创新的数据集构建方法和高效的编码模块实现了卓越的性能。LEOPARD利用一个精心策划的高质量多模态指令调优数据集,涵盖约百万条针对文本丰富、多图像场景的指令,并结合自适应高分辨率多图像编码模块,动态调整视觉序列长度,以优化模型对复杂任务的理解能力。在多个基准测试中,LEOPARD展现了其在单图像理解及跨多图像推理方面的出色表现。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部