LEOPARD

简介：LEOPARD是一款由腾讯AI Lab开发的视觉语言模型，专为处理包含大量文本的多图像任务而设计。它通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集，实现对复杂视觉语言任务的高效处理，包括跨图像推理、高分辨率图像处理及动态视觉序列长度优化。LEOPARD在自动化文档理解、教育、商业智能等领域具有广泛应用潜力。

AI小编 815 阅读 0 评论 35 点赞

项目地址

LEOPARD是由腾讯AI Lab西雅图实验室研发的视觉语言模型，专注于处理包含大量文本信息的多图像任务。该模型通过创新的数据集构建方法和高效的编码模块实现了卓越的性能。LEOPARD利用一个精心策划的高质量多模态指令调优数据集，涵盖约百万条针对文本丰富、多图像场景的指令，并结合自适应高分辨率多图像编码模块，动态调整视觉序列长度，以优化模型对复杂任务的理解能力。在多个基准测试中，LEOPARD展现了其在单图像理解及跨多图像推理方面的出色表现。

本文分类：AI项目与工具
本文标签：视觉语言模型多模态指令调优自适应编码腾讯AI Lab 文档理解跨图像推理高分辨率图像处理商业智能学术研究客户服务
浏览次数：815 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10199.html

评论列表共有 0 条评论

暂无评论

LEOPARD

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复