Mooncake是由Kimi联合清华大学等机构共同开发的大模型推理架构,采用以KVCache为核心的分布式设计,通过分离预填充和解码集群,充分利用GPU集群中未充分使用的CPU、DRAM和SSD资源,显著提升大模型推理的吞吐量,降低算力开销,同时保持较低的服务延迟。该架构在长上下文场景表现优异,能够显著提高处理效率,支持基于预测的早期拒绝策略,优化过载环境下的资源分配。Mooncake已在GitHub上开源,推动高效推理平台的发展。
Mooncake是由Kimi联合清华大学等机构共同开发的大模型推理架构,采用以KVCache为核心的分布式设计,通过分离预填充和解码集群,充分利用GPU集群中未充分使用的CPU、DRAM和SSD资源,显著提升大模型推理的吞吐量,降低算力开销,同时保持较低的服务延迟。该架构在长上下文场景表现优异,能够显著提高处理效率,支持基于预测的早期拒绝策略,优化过载环境下的资源分配。Mooncake已在GitHub上开源,推动高效推理平台的发展。
发表评论 取消回复