Hunyuan-Large是由腾讯推出的一款大规模混合专家(MoE)模型,拥有3890亿总参数量和520亿激活参数量,是当前业界参数规模最大的开源MoE模型之一。基于Transformer架构,该模型能够支持长达256K的文本序列输入,显著提升了对长文本任务的处理能力。在长上下文处理、中英文自然语言处理、代码生成及数学运算等方面,Hunyuan-Large表现优异,超越了许多主流开源模型如Llama3和Mixtral。通过使用高质量合成数据进行训练,并结合合成数据增强技术,模型能够学习到更为丰富的特征表达,从而更好地适应新数据。此外,它还采用了分组查询注意力(GQA)与跨层注意力(CLA)机制,有效降低了KV缓存所需的内存占用及计算成本,进一步优化了推理性能。
发表评论 取消回复