Mooncake

简介：Mooncake是一个以KVCache为中心的分布式大模型推理架构，由Kimi联合清华大学等机构开源。它通过分离预填充和解码阶段，有效利用GPU集群的其他资源，显著提升推理吞吐量，降低算力消耗，同时保持低延迟。Mooncake支持长上下文处理、负载均衡及过载管理，适用于多种应用场景，包括自然语言处理、语音识别、搜索引擎优化等，推动大模型技术的高效应用。

AI小编 588 阅读 0 评论 57 点赞

项目地址

Mooncake是由Kimi联合清华大学等机构共同开发的大模型推理架构，采用以KVCache为核心的分布式设计，通过分离预填充和解码集群，充分利用GPU集群中未充分使用的CPU、DRAM和SSD资源，显著提升大模型推理的吞吐量，降低算力开销，同时保持较低的服务延迟。该架构在长上下文场景表现优异，能够显著提高处理效率，支持基于预测的早期拒绝策略，优化过载环境下的资源分配。Mooncake已在GitHub上开源，推动高效推理平台的发展。

本文分类：AI项目与工具
本文标签：分布式架构 KVCache 大模型推理长上下文处理资源优化 GPU集群早期拒绝策略高效传输标准化接口开源项目
浏览次数：588 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10143.html

评论列表共有 0 条评论

暂无评论

Mooncake

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复