SVDQuant是由MIT研究团队开发的一种后训练量化技术,专为扩散模型设计。该技术通过将模型权重和激活值量化至4位,显著减少了内存占用并加速了推理过程。SVDQuant采用高精度的低秩分支技术来吸收量化过程中产生的异常值,从而在保持图像质量的同时,实现了在16GB 4090 GPU上显存占用减少3.5倍以及延迟降低8.7倍的效果。此外,SVDQuant支持DiT架构,并兼容UNet架构,能够无缝集成现有的低秩适配器(LoRAs),无需重新量化,为资源受限设备上的大型扩散模型部署提供了高效解决方案。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部