Zamba2-7B是由Zyphra公司开发的一款轻量级语言模型,采用创新的混合架构,在保证输出质量的同时实现了高效的推理速度和较低的内存占用。该模型擅长处理图像描述等任务,并能够在边缘设备及消费级GPU上稳定运行。Zamba2-7B通过引入Mamba2块替代Mamba1块,采用ABAB模式排列的共享注意力机制,并在MLP模块中加入LoRA投影器,显著提升了整体性能。相比同尺寸的小型语言模型,如Mistral、Google的Gemma和Meta的Llama3系列,Zamba2-7B在质量和性能方面表现更优。其预训练数据集经过严格筛选,包含3万亿tokens,并通过特殊的退火预训练阶段进一步优化了模型质量。
发表评论 取消回复