SmolVLM

简介：SmolVLM是一款由Hugging Face开发的轻量级视觉语言模型，专为设备端推理设计。该模型具有三个版本，包括SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct，分别适用于不同的应用场景。SmolVLM借鉴了Idefics3的理念，采用SmolLM2 1.7B作为语言主干，并通过像素混洗技术提升视觉信息的压缩效率。其训练数据集包括Cauldron和

AI小编 483 阅读 0 评论 62 点赞

项目地址

SmolVLM是由Hugging Face开发的一款轻量级视觉语言模型，专为设备端推理而设计。该模型以20亿参数量为基础，兼具高效内存占用与快速处理能力。SmolVLM提供了三种版本供用户选择：SmolVLM-Base适用于下游任务的微调；SmolVLM-Synthetic基于合成数据进行微调；SmolVLM-Instruct则为指令微调版本，可以直接应用于交互式应用场景。该模型借鉴了Idefics3的理念，采用SmolLM2 1.7B作为语言主干，并结合像素混洗技术提升视觉信息的压缩效率。其训练数据集涵盖Cauldron和Docmatix，进一步提升了图像编码和文本处理能力。 SmolVLM具备多项突出特点：首先，它专为设备端推理设计，能够在笔记本电脑、消费级GPU或移动设备等资源有限的环境中高效运行；其次，其架构经过优化，通过像素混洗策略显著提高了视觉信息的压缩效率；再次，SmolVLM支持处理长文本和多张图像，得益于其上下文扩展功能；此外，模型的内存占用较低，相比其他模型具有更高的吞吐量；最后，SmolVLM完全开源，所有相关资源均在Apache 2.0许可证下发布。

本文分类：AI项目与工具
本文标签：轻量级视觉语言模型设备端推理微调开源图像编码文本处理高吞吐量 AI普及化模型优化
浏览次数：483 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10159.html

评论列表共有 0 条评论

暂无评论

SmolVLM

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复