KTransformers是由清华大学KVCache.AI团队与趋境科技联合开发的开源项目,旨在提升大语言模型的推理效率并降低硬件要求。该工具采用GPU/CPU异构计算策略,结合MoE架构的稀疏性优势,可在单张24GB显卡上运行DeepSeek-R1、V3等671B参数的大模型。通过基于计算强度的offload策略、高性能算子优化及CUDA Graph技术,KTransformers显著提升了预处理和推理速度,分别达到286 tokens/s和14 tokens/s。项目还支持多种模型和算子,提供灵活的模板注入框架,便于用户自定义优化方案。此外,KTransformers通过4bit量化和KV缓存优化进一步压缩存储需求,使普通用户也能在消费级设备上部署和运行超大规模模型。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部