Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学及上海财经大学共同开发的一种创新性增量压缩算法。该算法能够使单个80G A100 GPU支持同时加载多达50个7B规模的语言模型,相较于传统方法,其显存利用率提升了约8倍,且模型性能几乎与未压缩的微调模型一致。Delta-CoMe通过结合低秩分解与低比特量化技术,利用模型参数增量(Delta)的低秩特性,实现了高效的混合精度压缩。这种方法不仅大幅降低了模型的存储和推理成本,还在处理数学、代码以及多模态等复杂任务时表现优异。
发表评论 取消回复