NVLM是由NVIDIA开发的多模态大型语言模型(LLMs),专注于视觉-语言任务,在性能上可媲美顶级专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)。NVLM 1.0系列包含三种架构:仅解码器模型NVLM-D、交叉注意力模型NVLM-X以及混合模型NVLM-H。这三种架构经过多模态训练后,不仅保持了文本性能,还在某些情况下超越了其基础LLM模型。NVLM依托精心策划的多模态预训练与监督微调数据集,展现出卓越的性能,尤其是在数学和编程任务中表现突出。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部