NVLM

简介：NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI小编 670 阅读 0 评论 57 点赞

官网地址

NVLM是由NVIDIA开发的多模态大型语言模型（LLMs），专注于视觉-语言任务，在性能上可媲美顶级专有模型（如GPT-4o）和开放访问模型（如Llama 3-V 405B和InternVL 2）。NVLM 1.0系列包含三种架构：仅解码器模型NVLM-D、交叉注意力模型NVLM-X以及混合模型NVLM-H。这三种架构经过多模态训练后，不仅保持了文本性能，还在某些情况下超越了其基础LLM模型。NVLM依托精心策划的多模态预训练与监督微调数据集，展现出卓越的性能，尤其是在数学和编程任务中表现突出。

本文分类：AI项目与工具
本文标签：多模态大型语言模型视觉-语言任务图像理解跨模态融合视觉推理多模态翻译 NVIDIA HuggingFace arXiv
浏览次数：670 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10127.html

评论列表共有 0 条评论

暂无评论

NVLM

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复