低精度计算

DeepGEMM

DeepGEMM是DeepSeek开发的高效FP8矩阵乘法库,专为NVIDIA Hopper架构优化,支持普通与分组GEMM操作。采用即时编译技术,实现运行时动态优化,提升计算性能与精度。通过细粒度缩放和双级累加技术解决FP8精度问题,结合TMA特性提升数据传输效率。代码简洁,仅约300行,适用于大规模AI推理、MoE模型优化及高性能计算场景。