Skywork-OR1 - 昆仑万维开源的高性能系列推理模型

AI小编 265 阅读 0 评论 26 点赞

Skywork-OR1简介

Skywork-OR1（Open Reasoner 1）是昆仑万维推出的一系列高性能开源推理模型，旨在突破大模型在逻辑推理和复杂任务处理方面的限制。该系列包含三款模型：Skywork-OR1-Math-7B专攻数学推理，具备强大的解题能力；Skywork-OR1-7B-Preview为通用模型，兼具数学与编程能力；Skywork-OR1-32B-Preview为旗舰版本，适用于更高复杂度的任务，具有更强的推理性能。在多个基准测试中，Skywork-OR1系列表现优异。例如，在AIME24和AIME25数据集上，Skywork-OR1-Math-7B分别取得69.8%和52.3%的成绩，远超同规模主流模型。在竞赛编程任务中，Skywork-OR1-32B-Preview在LiveCodeBench数据集上的表现接近DeepSeek-R1（参数量为671B），展现出优秀的性价比。

Skywork-OR1的核心功能

逻辑推理能力：能够处理复杂的逻辑关系和多步骤推理任务。
编程支持：可生成高质量代码，并支持多种编程语言。
代码优化与调试：具备对代码进行优化和调试的能力，提升代码质量和执行效率。
多领域适应性：拥有通用推理能力，适用于多种领域的复杂任务。
多轮对话交互：支持多轮对话，根据上下文逐步解决问题，增强推理连贯性。

Skywork-OR1的技术实现

高质量数据集：基于NuminaMath-1.5等高难度数学数据集，筛选出AIME、Olympiads等题目，以及LeetCode和TACO中的高质量代码问题。
数据预处理：通过多轮采样验证答案，剔除无效题目，并结合人工评审与自动判题机制清理不完整或格式错误的问题。
训练策略：采用GRPO训练方法，分阶段扩展上下文窗口长度，提升模型的长链思维能力。
损失函数优化：移除KL损失项，平均策略损失以提高训练稳定性。
多阶段训练：通过逐步扩展上下文长度，帮助模型掌握复杂推理能力。

Skywork-OR1的性能表现

数学推理任务：
- Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24与AIME25数据集上表现优异，达到同参数规模最优水平。
- Skywork-OR1-Math-7B在AIME24和AIME25上分别取得69.8%和52.3%的高分，显著优于同类模型。
- Skywork-OR1-32B-Preview在多个基准测试中超越QwQ-32B，接近R1的表现。
竞赛编程任务：
- Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在LiveCodeBench数据集上表现突出。
- Skywork-OR1-32B-Preview在代码生成和问题求解方面接近DeepSeek-R1，展现高性价比。
Skywork-OR1-Math-7B表现：
- 在AIME24和AIME25上分别取得69.8%和52.3%的准确率，达到当前尺寸下的最佳性能。
- 在Livecodebench上从37.6%提升至43.6%，显示出良好的泛化能力。

Skywork-OR1项目信息

项目官网：https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reasoner
GitHub仓库：https://github.com/SkyworkAI/Skywork-OR1
HuggingFace模型库：https://huggingface.co/collections/Skywork/skywork-or1

Skywork-OR1的应用场景

数学教育：辅助学生解题，提供解题思路，支持教师教学。
科研辅助：协助研究人员进行模型探索、公式推导与猜想验证。
编程开发：生成代码框架，优化代码结构，提升开发效率。
数据分析：用于金融、商业等领域，辅助决策与趋势预测。
AI研究：作为研究平台，推动推理模型的算法与架构发展。

本文分类：AI项目与工具
本文标签：AI模型逻辑推理数学推理编程支持开源工具模型性能推理能力多领域应用代码优化 AI研究
浏览次数：265 次浏览
发布日期：2025-06-11 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8178.html

上一篇 > Seed-Thinking-v1.5 - 字节跳动推出的最新思考模型
下一篇 > 小布助手 - OPPO推出的网页版 AI 助手，接入满血版 DeepSeek

评论列表共有 0 条评论

暂无评论