COMET是由字节跳动研发的面向Mixture-of-Experts(MoE)模型的优化系统,旨在解决分布式训练过程中通信开销过大的问题。该系统通过细粒度计算与通信重叠技术,将计算任务与通信操作深度融合,有效减少资源浪费和延迟。COMET引入了共享张量依赖解析和自适应负载分配机制,实现动态资源调度,提升通信隐藏和计算效率。在大规模生产环境中,COMET显著提高了MoE模型的训练性能,单层加速可达1.96倍,端到端加速达1.71倍,并已节省大量GPU小时。其核心代码已开源,支持主流大模型及多种并行策略,能够无缝集成至现有训练框架中。
发表评论 取消回复