SmolVLM是由Hugging Face开发的一款轻量级视觉语言模型,专为设备端推理而设计。该模型以20亿参数量为基础,兼具高效内存占用与快速处理能力。SmolVLM提供了三种版本供用户选择:SmolVLM-Base适用于下游任务的微调;SmolVLM-Synthetic基于合成数据进行微调;SmolVLM-Instruct则为指令微调版本,可以直接应用于交互式应用场景。该模型借鉴了Idefics3的理念,采用SmolLM2 1.7B作为语言主干,并结合像素混洗技术提升视觉信息的压缩效率。其训练数据集涵盖Cauldron和Docmatix,进一步提升了图像编码和文本处理能力。 SmolVLM具备多项突出特点:首先,它专为设备端推理设计,能够在笔记本电脑、消费级GPU或移动设备等资源有限的环境中高效运行;其次,其架构经过优化,通过像素混洗策略显著提高了视觉信息的压缩效率;再次,SmolVLM支持处理长文本和多张图像,得益于其上下文扩展功能;此外,模型的内存占用较低,相比其他模型具有更高的吞吐量;最后,SmolVLM完全开源,所有相关资源均在Apache 2.0许可证下发布。
发表评论 取消回复