视觉-语言任务

首页

视觉-语言任务

列表

默认

浏览次数

发布日期

NVLM

NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 721 浏览

视觉-语言任务 首页 视觉-语言任务

列表 默认 浏览次数 发布日期

NVLM

视觉-语言任务

首页

视觉-语言任务

列表

默认

浏览次数

发布日期