OpenAI o1复现进展:DeepSeek-R1
DeepSeek AI 近期发布 DeepSeek-R1 (DeepSeek-AI, 2025),其推理性能在多个 benchmark 上已接近 OpenAI o1 (OpenAI, 2024)的水平,是开源社区成功复现 o1 的重要一步。R1 相关代码可以参考huggingface 尝试开源复现 open-r1 项目。以往的研究多依赖于海量的监督数据来提升大语言模型(Large Language Model, LLM)性能,但 DeepSeek-R1 及其早期实验 DeepSeek-R1-Zero 的成功,有力证明了纯粹大规模强化学习在提升 LLM 推理能力方面的潜力。其印证了 Richard Sutton 在 “The Bitter Lesson” 中提出的深刻见解: ...