Skywork-OR1简介
Skywork-OR1(Open Reasoner 1)是昆仑万维推出的一系列高性能开源推理模型,旨在突破大模型在逻辑推理和复杂任务处理方面的限制。该系列包含三款模型:Skywork-OR1-Math-7B专攻数学推理,具备强大的解题能力;Skywork-OR1-7B-Preview为通用模型,兼具数学与编程能力;Skywork-OR1-32B-Preview为旗舰版本,适用于更高复杂度的任务,具有更强的推理性能。在多个基准测试中,Skywork-OR1系列表现优异。例如,在AIME24和AIME25数据集上,Skywork-OR1-Math-7B分别取得69.8%和52.3%的成绩,远超同规模主流模型。在竞赛编程任务中,Skywork-OR1-32B-Preview在LiveCodeBench数据集上的表现接近DeepSeek-R1(参数量为671B),展现出优秀的性价比。
Skywork-OR1的核心功能
- 逻辑推理能力:能够处理复杂的逻辑关系和多步骤推理任务。
- 编程支持:可生成高质量代码,并支持多种编程语言。
- 代码优化与调试:具备对代码进行优化和调试的能力,提升代码质量和执行效率。
- 多领域适应性:拥有通用推理能力,适用于多种领域的复杂任务。
- 多轮对话交互:支持多轮对话,根据上下文逐步解决问题,增强推理连贯性。
Skywork-OR1的技术实现
- 高质量数据集:基于NuminaMath-1.5等高难度数学数据集,筛选出AIME、Olympiads等题目,以及LeetCode和TACO中的高质量代码问题。
- 数据预处理:通过多轮采样验证答案,剔除无效题目,并结合人工评审与自动判题机制清理不完整或格式错误的问题。
- 训练策略:采用GRPO训练方法,分阶段扩展上下文窗口长度,提升模型的长链思维能力。
- 损失函数优化:移除KL损失项,平均策略损失以提高训练稳定性。
- 多阶段训练:通过逐步扩展上下文长度,帮助模型掌握复杂推理能力。
Skywork-OR1的性能表现
- 数学推理任务:
- Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24与AIME25数据集上表现优异,达到同参数规模最优水平。
- Skywork-OR1-Math-7B在AIME24和AIME25上分别取得69.8%和52.3%的高分,显著优于同类模型。
- Skywork-OR1-32B-Preview在多个基准测试中超越QwQ-32B,接近R1的表现。
- 竞赛编程任务:
- Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在LiveCodeBench数据集上表现突出。
- Skywork-OR1-32B-Preview在代码生成和问题求解方面接近DeepSeek-R1,展现高性价比。
- Skywork-OR1-Math-7B表现:
- 在AIME24和AIME25上分别取得69.8%和52.3%的准确率,达到当前尺寸下的最佳性能。
- 在Livecodebench上从37.6%提升至43.6%,显示出良好的泛化能力。
Skywork-OR1项目信息
- 项目官网:https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reasoner
- GitHub仓库:https://github.com/SkyworkAI/Skywork-OR1
- HuggingFace模型库:https://huggingface.co/collections/Skywork/skywork-or1
Skywork-OR1的应用场景
- 数学教育:辅助学生解题,提供解题思路,支持教师教学。
- 科研辅助:协助研究人员进行模型探索、公式推导与猜想验证。
- 编程开发:生成代码框架,优化代码结构,提升开发效率。
- 数据分析:用于金融、商业等领域,辅助决策与趋势预测。
- AI研究:作为研究平台,推动推理模型的算法与架构发展。
发表评论 取消回复