KVCache

Mooncake

Mooncake是一个以KVCache为中心的分布式大模型推理架构,由Kimi联合清华大学等机构开源。它通过分离预填充和解码阶段,有效利用GPU集群的其他资源,显著提升推理吞吐量,降低算力消耗,同时保持低延迟。Mooncake支持长上下文处理、负载均衡及过载管理,适用于多种应用场景,包括自然语言处理、语音识别、搜索引擎优化等,推动大模型技术的高效应用。

3FS

3FS是DeepSeek推出的高性能分布式文件系统,专为AI训练和推理优化。采用SSD与RDMA技术,提供高达6.6 TiB/s的读取吞吐量,支持强一致性及通用文件接口。具备数据准备、加载、检查点和KVCache缓存功能,适用于大规模AI应用。在GraySort测试中表现优异,吞吐量达3.66 TiB/min,KVCache读取峰值达40 GiB/s,适用于多节点计算环境。