DeepCoder

简介：DeepCoder-14B-Preview 是一款基于 Deepseek-R1-Distilled-Qwen-14B 微调的开源代码生成模型，采用分布式强化学习技术，在 LiveCodeBench 基准上达到 60.6% 准确率。支持多语言代码生成、问题解决、补全优化、测试生成等功能，适用于开发、教育、竞赛等多个场景。项目提供完整训练数据与优化方案，推动 RL 在 LLM 中的应用。

AI小编 827 阅读 0 评论 39 点赞

官网地址

DeepCoder-14B-Preview 简介

DeepCoder-14B-Preview 是由 Agentica 与 Together AI 联合开发并开源的一款大型代码生成模型，基于 Deepseek-R1-Distilled-Qwen-14B 进行微调。该模型通过分布式强化学习（RL）进行训练，在代码生成任务中表现优异，尤其在 LiveCodeBench 基准测试中达到 60.6% 的准确率，与 OpenAI 的 o3-mini 模型水平相当。项目提供了完整的训练数据集、代码、训练日志及系统优化方案，旨在推动强化学习在大型语言模型中的应用，降低相关技术的使用门槛，并促进社区发展。

DeepCoder-14B-Preview 的主要功能

高质量代码生成：支持多种编程语言和场景，生成可运行的高质量代码。
代码问题解决：能够处理复杂编程问题，包括算法设计和数据结构优化。
代码补全与优化：提供代码补全功能，提升开发效率，同时优化现有代码。
单元测试生成：自动生成单元测试代码，提高代码可靠性。
代码调试辅助：帮助开发者识别并修复代码错误。
跨平台适用性：兼容多种编程环境和平台。

DeepCoder-14B-Preview 的技术原理

基础模型：基于 Deepseek-R1-Distilled-Qwen-14B，一个经过优化的 140 亿参数预训练模型。
强化学习微调：采用分布式强化学习方法对模型进行微调，以提升代码生成质量。
高质量数据集：使用 24K 个可验证编程问题进行训练，数据来源包括 TACO Verified、SYNTHETIC-1 及 LiveCodeBench。
奖励函数设计：采用稀疏结果奖励模型（ORM），确保生成代码满足所有测试用例。
上下文扩展技术：通过迭代方式扩展上下文长度，最终在 64K 上下文中实现高准确率。
系统优化：引入 verl-pipeline 技术，提升训练效率。

DeepCoder-14B-Preview 的项目资源

项目官网：https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder
HuggingFace 模型库：https://huggingface.co/agentica-org/DeepCoder-14B-Preview

DeepCoder-14B-Preview 的应用场景

代码生成与自动化编程：提升开发效率，适用于多种编程语言。
算法竞赛与问题解决：辅助参赛者快速生成高效解决方案。
代码优化与重构：提升代码质量和可维护性。
教育与学习辅助：作为编程教学工具，辅助学生理解编程概念。
软件开发与测试：生成单元测试代码，辅助调试与质量保障。

本文分类：AI项目与工具
本文标签：AI代码生成强化学习大型语言模型开源工具代码优化编程辅助机器学习代码调试自动化编程教育工具
浏览次数：827 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8222.html

上一篇 > Cloudflare Agents
下一篇 > 扣子罗盘

评论列表共有 0 条评论

暂无评论