KTransformers

简介：KTransformers是一款由清华大学KVCache.AI团队与趋境科技联合开发的开源工具，用于提升大语言模型的推理性能并降低硬件门槛。它支持在24GB显卡上运行671B参数模型，利用MoE架构和异构计算策略实现高效推理，预处理速度达286 tokens/s，推理速度达14 tokens/s。项目提供灵活的模板框架，兼容多种模型，并通过量化和优化技术减少存储需求，适合个人、企业及研究场景使用。

AI小编 541 阅读 0 评论 21 点赞

项目地址

KTransformers是由清华大学KVCache.AI团队与趋境科技联合开发的开源项目，旨在提升大语言模型的推理效率并降低硬件要求。该工具采用GPU/CPU异构计算策略，结合MoE架构的稀疏性优势，可在单张24GB显卡上运行DeepSeek-R1、V3等671B参数的大模型。通过基于计算强度的offload策略、高性能算子优化及CUDA Graph技术，KTransformers显著提升了预处理和推理速度，分别达到286 tokens/s和14 tokens/s。项目还支持多种模型和算子，提供灵活的模板注入框架，便于用户自定义优化方案。此外，KTransformers通过4bit量化和KV缓存优化进一步压缩存储需求，使普通用户也能在消费级设备上部署和运行超大规模模型。

本文分类：AI项目与工具
本文标签：AI工具大模型优化 MoE架构异构计算推理加速量化技术开源项目模型部署 GPU优化 KTransformers
浏览次数：541 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8927.html

评论列表共有 0 条评论

暂无评论

KTransformers

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复