DeepSeek R1-Zero 是由 DeepSeek 团队开发的一款基于纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。该模型在 AIME 2024 数学竞赛中表现出显著提升,Pass@1 分数从 15.6% 提高至 71.0%,接近 OpenAI-o1-0912 的水平。其核心优势在于通过强化学习实现自我进化能力,包括反思和重新评估解题方法。 DeepSeek R1-Zero 具备强大的推理能力,适用于数学、代码和自然语言推理等多种任务。它采用 GRPO(Group Relative Policy Optimization)算法优化策略,避免了传统 PPO 方法所需的额外价值模型训练成本。同时,模型支持长上下文处理,生成平均长度达 1200 词的思维链,增强多步推理能力。 此外,DeepSeek R1-Zero 模型权重已开源,遵循 MIT 协议,便于研究和应用扩展。基于该模型蒸馏出的多个小规模版本(如 7B、32B、70B)在推理任务中表现优异,性能接近甚至超越部分闭源模型。其多语言支持及语言一致性奖励机制也进一步提升了跨语言任务的稳定性。
发表评论 取消回复