模型推理 - 智狐AI导航

Mooncake

Mooncake是一个以KVCache为中心的分布式大模型推理架构，由Kimi联合清华大学等机构开源。它通过分离预填充和解码阶段，有效利用GPU集群的其他资源，显著提升推理吞吐量，降低算力消耗，同时保持低延迟。Mooncake支持长上下文处理、负载均衡及过载管理，适用于多种应用场景，包括自然语言处理、语音识别、搜索引擎优化等，推动大模型技术的高效应用。

AI项目与工具 2025年06月12日 57 点赞 0 评论 403 浏览

InftyThink

InftyThink是一种创新的大模型推理范式，通过分段迭代和阶段性总结的方式，突破传统模型在长推理任务中的上下文窗口限制，显著降低计算复杂度并提升推理性能。它适用于数学问题求解、逻辑推理、代码生成、智能辅导及药物研发等多个领域，具备良好的工程可落地性和广泛的适用性。

AI项目与工具 2025年06月12日 10 点赞 0 评论 625 浏览

TPO

TPO（Test-Time Preference Optimization）是一种在推理阶段优化语言模型输出的框架，通过将奖励模型反馈转化为文本形式，实现对模型输出的动态调整。该方法无需更新模型参数，即可提升模型在多个基准测试中的性能，尤其在指令遵循、偏好对齐、安全性和数学推理等方面效果显著。TPO具备高效、轻量、可扩展的特点，适用于多种实际应用场景。

AI项目与工具 2025年06月12日 83 点赞 0 评论 642 浏览

MHA2MLA

MHA2MLA是一种由多所高校与研究机构联合开发的数据高效微调方法，基于多头潜在注意力机制（MLA）优化Transformer模型的推理效率。通过Partial-RoPE和低秩近似技术，显著减少KV缓存内存占用，同时保持模型性能稳定。仅需少量数据即可完成微调，适用于边缘设备、长文本处理及模型迁移等场景，具备高兼容性和低资源消耗优势。

AI项目与工具 2025年06月12日 47 点赞 0 评论 635 浏览

面壁智能

面壁智能依托在自然语言处理方面的前沿技术，构建大规模预训练模型库及配套工具，推进大模型技术与应用的标准化。

创作工具 1970年01月01日 0 点赞 0 评论 460 浏览

模型推理

首页

模型推理

列表

默认

浏览次数

发布日期

Mooncake

InftyThink

TPO

MHA2MLA

面壁智能

模型推理 首页 模型推理

列表 默认 浏览次数 发布日期

Mooncake

InftyThink

TPO

MHA2MLA

面壁智能

模型推理

首页

模型推理

列表

默认

浏览次数

发布日期