OLMoE(Open Mixture-of-Experts Language Models)是一款完全开源的大型语言模型,采用混合专家(MoE)架构设计。该模型基于5万亿个token进行预训练,拥有总计70亿参数,其中10亿为活跃参数。在每层中,只有部分专家根据输入数据被激活,从而显著降低计算成本,提升运行效率。OLMoE通过高效架构实现了快速训练和推理,同时在性能表现上与更昂贵的大规模密集模型相当。 ---
OLMoE(Open Mixture-of-Experts Language Models)是一款完全开源的大型语言模型,采用混合专家(MoE)架构设计。该模型基于5万亿个token进行预训练,拥有总计70亿参数,其中10亿为活跃参数。在每层中,只有部分专家根据输入数据被激活,从而显著降低计算成本,提升运行效率。OLMoE通过高效架构实现了快速训练和推理,同时在性能表现上与更昂贵的大规模密集模型相当。 ---
发表评论 取消回复