MHA2MLA是由复旦大学、华东师范大学及上海AI Lab等机构联合开发的一种数据高效的微调方法,其核心在于引入DeepSeek的多头潜在注意力机制(MLA),以提升基于Transformer架构的大语言模型(LLM)推理效率并降低计算成本。该方法通过两项关键技术实现优化:一是Partial-RoPE,即移除对注意力分数影响较小的旋转位置编码(RoPE)维度;二是低秩近似,采用联合奇异值分解(SVDjoint)对键和值进行压缩,从而显著减少KV缓存的内存占用。实验表明,MHA2MLA仅需原始数据的0.3%至0.6%即可完成微调,在减少KV缓存(最高达96.87%)的同时,性能损失极小(如LongBench任务中仅下降0.5%)。 该工具具备良好的兼容性,可与量化技术(如4-bit量化)结合使用,进一步提升推理效率。其应用场景涵盖边缘设备部署、大规模模型推理、长文本处理以及快速模型迁移等,适用于资源受限环境下的高效模型优化。
发表评论 取消回复