大模型推理

首页

大模型推理

列表

默认

浏览次数

发布日期

Mooncake

Mooncake是一个以KVCache为中心的分布式大模型推理架构，由Kimi联合清华大学等机构开源。它通过分离预填充和解码阶段，有效利用GPU集群的其他资源，显著提升推理吞吐量，降低算力消耗，同时保持低延迟。Mooncake支持长上下文处理、负载均衡及过载管理，适用于多种应用场景，包括自然语言处理、语音识别、搜索引擎优化等，推动大模型技术的高效应用。

AI项目与工具 2025年06月12日 57 点赞 0 评论 583 浏览

InftyThink

InftyThink是一种创新的大模型推理范式，通过分段迭代和阶段性总结的方式，突破传统模型在长推理任务中的上下文窗口限制，显著降低计算复杂度并提升推理性能。它适用于数学问题求解、逻辑推理、代码生成、智能辅导及药物研发等多个领域，具备良好的工程可落地性和广泛的适用性。

AI项目与工具 2025年06月12日 10 点赞 0 评论 825 浏览

大模型推理 首页 大模型推理

列表 默认 浏览次数 发布日期

Mooncake

InftyThink

大模型推理

首页

大模型推理

列表

默认

浏览次数

发布日期