Fox-1是由TensorOpera开发的一系列小型语言模型(SLMs),包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。该模型在3万亿个网络抓取的文档数据上进行预训练,并在50亿条指令遵循和多轮对话数据上进一步微调。Fox-1通过采用3阶段数据课程和深度架构设计,具备256K的扩展词汇量和分组查询注意力(GQA)机制,显著提升了模型的效率和性能。在多项标准语言模型基准测试中,如ARC Challenge、HellaSwag、MMLU和GSM8k,Fox-1均表现出卓越的性能,甚至超越了参数规模为其两倍的模型。 Fox-1在文本生成与理解、指令遵循、多轮对话、长上下文处理以及高效率推理方面具有显著优势。其独特的技术特性包括3阶段数据课程、深度架构设计、分组查询注意力、共享输入输出嵌入、扩展词汇量、预归一化和Rotary Positional Embeddings(RoPE)位置编码,这些共同构成了Fox-1的核心竞争力。
发表评论 取消回复