Arctic简介

Arctic是由云计算公司Snowflake的AI研究团队开发的一个高效且开源的企业级大型语言模型。该模型拥有480亿参数,采用混合专家模型(MoE)架构,其中包含128个专家,每个专家具有3.66亿参数。Arctic在成本效益、训练效率及推理效率方面具有显著优势,特别适用于企业任务,例如SQL生成、编程和指令遵循。该模型基于Apache 2.0许可发布,用户可以自由使用和修改模型权重及代码,并可访问相关数据集和研究洞察。

Arctic的主要特点

  • 参数规模:Arctic拥有480亿参数,但推理时仅激活170亿参数,以提高效率。
  • 技术架构:采用混合架构,结合了密集变换器(Dense Transformer)和128个专家的MoE模型,每个专家有3.66亿参数。
  • 上下文窗口:模型训练时使用4K的注意力上下文窗口,并计划扩展至32K,以支持更长序列的处理。
  • 训练成本:Arctic的训练计算预算大约在200万美元以下(即少于3000个GPU周)即可达到顶级大模型的能力。
  • 模型许可:Arctic在开放的Apache 2.0许可下发布,允许自由使用和修改。
  • 主要用途:专为企业设计,擅长执行SQL生成、编程和指令遵循等任务,适合创建定制企业模型。

Arctic的模型架构

  • 架构组成:Arctic采用了Dense-MoE Hybrid Transformer架构,结合了密集变换器(Dense Transformer)和混合专家模型(MoE)的特点。
  • 密集变换器规模:模型包含一个具有10亿参数的密集变换器模型。
  • MoE架构规模:在MoE部分,Arctic设计了128个细粒度的专家,每个专家拥有3.66亿参数。因此,MoE部分的总参数量为128×3.66亿,即约470亿参数。
  • 总参数量:结合密集变换器和MoE部分,Arctic的总参数量达到了480亿参数。
  • 活跃参数选择:在推理过程中,Arctic使用top-2门控机制从128个专家中选择两个最合适的专家,这意味着在任何给定时间,大约有17亿的参数是活跃的。
  • 通信与计算重叠:为了提高训练效率,Arctic的架构设计允许在训练过程中将专家间的通信开销与计算任务重叠,从而隐藏了通信开销。
  • 推理效率:在小批量(如批量大小为1)的交互式推理中,Arctic模型的内存读取次数比Code-Llama 70B少4倍,比Mixtral 8x22B少2.5倍,这有助于提高推理性能。
  • 系统优化:Arctic与NVIDIA合作,利用TensorRT-LLM和vLLM团队的技术,为Arctic提供了初步的推理实现,并通过FP8量化技术,使得Arctic可以在单个GPU节点上运行。
  • 注意力上下文窗口:Arctic训练时使用的注意力上下文窗口为4K,团队正在开发基于attention-sinks的滑动窗口实现,以支持无限序列生成能力,未来计划扩展到32K注意力窗口。

Arctic的性能表现

Snowflake将Arctic与DBRX、Llama、Mixtral等模型在企业指标和学术指标方面的基准测试进行了对比,Arctic在企业智能指标上表现更好,在如MMLU等通用知识基准上的性能可能略低于一些最新模型,但它在这些基准上仍然保持了竞争力。

企业指标:与所有其他开源模型相比,Arctic都表现出顶级性能,这些任务包括:

  • 编码(Coding):通过HumanEval+ 和 MBPP+ 基准测试编码能力。
  • SQL生成(SQL Generation):使用Spider基准测试SQL查询生成能力。
  • 指令遵循(Instruction Following):IFEval基准测试遵循复杂指令的能力。

如何使用Arctic

Arctic现已可在Hugging Face、Replicate等平台上使用,未来将在包括Snowflake Cortex、Amazon Web Services (AWS)、Microsoft Azure、NVIDIA API Catalog、Lamini、Perplexity和Together在内的多个平台上线。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部