高效传输

首页

高效传输

列表

默认

浏览次数

发布日期

Mooncake

Mooncake是一个以KVCache为中心的分布式大模型推理架构，由Kimi联合清华大学等机构开源。它通过分离预填充和解码阶段，有效利用GPU集群的其他资源，显著提升推理吞吐量，降低算力消耗，同时保持低延迟。Mooncake支持长上下文处理、负载均衡及过载管理，适用于多种应用场景，包括自然语言处理、语音识别、搜索引擎优化等，推动大模型技术的高效应用。

AI项目与工具 2025年06月12日 57 点赞 0 评论 590 浏览

高效传输 首页 高效传输

列表 默认 浏览次数 发布日期

Mooncake

高效传输

首页

高效传输

列表

默认

浏览次数

发布日期