Open-R1:DeepSeek-R1 的完全开源复现

Open-R1 是对 DeepSeek-R1 的完全开源复现,首次公开其强化学习(R1-Zero)与监督微调+RL(R1)双路径训练方法,涵盖数据构建、代码实现与超参细节。项目聚焦数学、编程与逻辑推理,旨在推动低成本、可复现的开源推理模型发展。

发布于2025年2月7日 06:07
编辑零重力瓦力
评论0
阅读9

Open-R1:DeepSeek-R1 的完全开源复现

作者:Elie Bakouch、Leandro von Werra、Lewis Tunstall
原文链接:https://huggingface.co/blog/open-r1

什么是 DeepSeek-R1?

如果你曾经被数学难题困住,你一定知道 “多思考一会儿” 有多么重要。事实证明,大语言模型(LLM)在推理时如果使用更多计算资源,也能在完成数学、编程和逻辑等任务上表现得更好。

OpenAI 的 o1 模型展示了这一点:通过在推理过程中使用更多计算,它在推理任务上的表现显著提升。然而,OpenAI 的推理模型训练方法一直是个商业机密,直到上周,DeepSeek 发布了 DeepSeek-R1,并迅速在科技界引发轰动(甚至影响了股市)。

除了性能媲美甚至优于 o1 之外,DeepSeek-R1 的发布还附带了一份详细的技术报告,列出了其训练方法的关键步骤。其中最引人注目的创新之一是完全基于强化学习(RL),使基础语言模型能够自主学习推理能力,而无需任何人工监督。

Open-R1:DeepSeek-R1 的完全开源复现

然而,DeepSeek-R1 的发布仍然留下了几个悬而未决的问题:

  • 数据收集: 如何筛选出专门用于推理的高质量数据集?
  • 模型训练: DeepSeek 没有公开训练代码,因此最佳的超参数设置仍然未知,不同规模的模型是否有不同的训练方法?
  • 扩展规律: 在训练推理模型时,计算成本和数据量之间的权衡是什么?

这些问题促使我们启动 Open-R1 项目,旨在系统性地重建 DeepSeek-R1 的数据和训练流程,验证其研究成果,并推动开源推理模型的发展。

他们是如何做到的?

DeepSeek-R1 是基于 DeepSeek-V3 训练的推理模型。一个优秀的推理模型需要一个强大的基础模型,而 DeepSeek-V3 正是如此。

这个拥有 6710 亿参数的专家混合(MoE)模型,其性能可与 Claude Sonnet 3.5 和 GPT-4o 媲美,且得益于架构优化(如 多 token 预测(MTP) 和 多头潜在注意力(MLA)),训练成本仅为 550 万美元,极具成本效益。

DeepSeek-R1-Zero:完全基于强化学习的推理模型

DeepSeek-R1-Zero 没有使用任何人工标注数据,而是完全依赖强化学习(RL)训练。

  • 训练方法: 使用群体相对策略优化(GRPO)提高强化学习效率。
  • 训练目标: 通过简单的奖励机制让模型学会分步解题和自我验证答案。

问题: 虽然 R1-Zero 具备强大的推理能力,但其答案往往缺乏清晰度,不够易读。

DeepSeek-R1:强化学习 + 监督微调

Open-R1:DeepSeek-R1 的完全开源复现

为了解决这个问题,DeepSeek-R1 采用了"冷启动"(Cold Start)策略,先用高质量的人工标注数据进行微调,提升答案的可读性和一致性。

Open-R1:填补缺失的部分

DeepSeek-R1 的发布极大地推动了推理模型的发展,但它并没有完全开源,虽然模型权重是公开的,但训练数据和代码并未开放。

我们的计划如下:

  1. 复现 R1-Distill 模型:从 DeepSeek-R1 提取高质量推理数据集。
  2. 复现 R1-Zero 的强化学习训练流程:构建全新的大规模数学、推理和编程数据集。
  3. 从基础模型 → 监督微调(SFT)→ 强化学习(RL),完成整个多阶段训练过程。

Open-R1:DeepSeek-R1 的完全开源复现

如何参与 Open-R1 项目?

这个项目不仅仅是对 DeepSeek-R1 的复现,更是一个开放的研究探索。

我们希望通过记录哪些方法有效,哪些无效,以及为什么,帮助大家避免不必要的计算浪费,提高研究效率。

想要参与?你可以:

  • 贡献代码
  • 在 Hugging Face 参与讨论
  • 提供计算资源
  • 帮助整理数据集
  • 无论你的专业背景如何,我们都欢迎你的加入!让我们一起构建一个完全开源的推理模型

项目地址:huggingface.co/open-r1

相关文章

智谱 AI 发布开源 GLM-5.1 编程模型
AI 产品工具
2026年4月11日
0 条评论
小创

智谱 AI 发布开源 GLM-5.1 编程模型

智谱 AI 发布 GLM-5.1 编程模型,专为编程和智能体工程设计,可持续运行 8 小时完成规划、执行、测试、修复等全流程任务。基准测试表现亮眼, SWE-Bench Pro 获 58.4 分,超越 GPT-5.4 等竞品。具备 20 万 token 上下文窗口等技术优势,现已面向开发者开放。此举标志着智谱 AI 在编程和智能体基础设施领域迈出关键一步。

#AI 模型#开源模型#GLM
阅读全文
Meta 推出 Muse Spark 智能体和 Contemplating 模式
AI 产品工具
2026年4月11日
0 条评论
小创

Meta 推出 Muse Spark 智能体和 Contemplating 模式

Meta 推出 Muse Spark 智能体模型,实现训练效率突破:性能比肩 Llama 4 Maverick ,计算资源消耗却降低超过十倍。发布后在 Artificial Analysis Arena 榜单从末尾跃升至第四位。该模型已作为 Meta AI 核心驱动引擎投入使用,并同步更新品牌视觉标识。业内人士指出, Meta 以预训练流程而非模型规模为突破口,预示着大模型竞争正从“暴力堆算力”向“精细化工程”转型。

#Meta#Muse Spark#AI 模型
阅读全文
【AI工具】Blink Claw,更简单、实用的专项多智能体助理
AI 产品工具
2026年3月22日
0 条评论
零重力瓦力

【AI工具】Blink Claw,更简单、实用的专项多智能体助理

Blink Claw 是面向普通用户的专项多智能体AI工具,支持180+模型并行处理不同任务,一键接入Gmail、Slack、GitHub等100+应用,无需配置API密钥;设计上无暴露端口、无第三方恶意脚本,比OpenClaw更简单、安全、易上手。

#智能体#AI 模型
阅读全文
互动讨论

评论区

围绕《Open-R1:DeepSeek-R1 的完全开源复现》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。