Scaling Laws

从 GPT 系列的演进中,研究者逐渐意识到:只要持续扩大模型参数、训练数据和计算资源,大模型性能便会沿着稳定且可预测的路径不断提升。这种可预测性正是由 Scaling Laws 所刻画,它为成本高昂的预训练提供了理论基础与实践信心。随着模型规模、对齐技术以及推理阶段的计算不断协同演化,AI 的能力边界正在系统性地被推高。它不仅是构建下一代模型的基础,也是在算力约束下持续提升模型能力的关键方法论。 ...

Created: 2025-11-19 · Updated: 2025-11-19 · 9 分钟 · 4214 字 · Yue Shui

Agentic RL

大语言模型(LLMs)目前应用场景不断扩展,但也暴露出知识截止、幻觉以及复杂计算与逻辑推理不足等局限。为应对这些挑战,将智能体(Agent)与强化学习(Reinforcement Learning, RL)相结合的 Agentic RL 正逐渐成为关键研究方向。 ...

Created: 2025-09-30 · Updated: 2025-09-30 · 18 分钟 · 8887 字 · Yue Shui

OpenAI o1复现进展:DeepSeek-R1

DeepSeek AI 近期发布 DeepSeek-R1 (DeepSeek-AI, 2025),其推理性能在多个 benchmark 上已接近 OpenAI o1 (OpenAI, 2024)的水平,是开源社区成功复现 o1 的重要一步。R1 相关代码可以参考huggingface 尝试开源复现 open-r1 项目。以往的研究多依赖于海量的监督数据来提升大语言模型(Large Language Model, LLM)性能,但 DeepSeek-R1 及其早期实验 DeepSeek-R1-Zero 的成功,有力证明了纯粹大规模强化学习在提升 LLM 推理能力方面的潜力。其印证了 Richard Sutton 在 “The Bitter Lesson” 中提出的深刻见解: ...

Created: 2025-01-27 · Updated: 2025-01-27 · 36 分钟 · 17588 字 · Yue Shui