DeepSeek-V3.2 系列

通过引入 DeepSeek Sparse Attention (DSA) 高效注意力机制、可扩展的强化学习框架以及大规模智能体任务合成管道,DeepSeek-V3.2(DeepSeek-AI, 2025)在推理能力和智能体性能上实现了与 GPT-5 相当的水平。 ...

Created: 2025-12-31 · Updated: 2025-12-31 · 12 分钟 · 5950 字 · Yue Shui

Scaling Laws

从 GPT 系列的演进中,研究者逐渐意识到:只要持续扩大模型参数、训练数据和计算资源,大模型性能便会沿着稳定且可预测的路径不断提升。这种可预测性正是由 Scaling Laws 所刻画,它为成本高昂的预训练提供了理论基础与实践信心。随着模型规模、对齐技术以及推理阶段的计算不断协同演化,AI 的能力边界正在系统性地被推高。它不仅是构建下一代模型的基础,也是在算力约束下持续提升模型能力的关键方法论。 ...

Created: 2025-11-19 · Updated: 2025-12-03 · 9 分钟 · 4318 字 · Yue Shui

DeepSeek-V2 vs V3

DeepSeek AI 先后发布了 DeepSeek-V2 (DeepSeek-AI, 2024) 和 DeepSeek-V3 (DeepSeek-AI, 2024),这两款强大的混合专家(Mixture-of-Experts, MoE)语言模型在保持顶尖性能的同时,显著优化了训练成本和推理效率。DeepSeek-V2 拥有 236B 总参数,每次激活 21B;而 DeepSeek-V3 则进一步扩展至 671B 总参数,每次激活 37B。两者均支持 128K 上下文长度。 ...

Created: 2025-04-18 · Updated: 2025-04-18 · 46 分钟 · 23038 字 · Yue Shui

深度学习中的归一化

引言 在深度学习中,网络架构的设计对模型的性能和训练效率有着至关重要的影响。随着模型深度的增加,训练深层神经网络面临诸多挑战,如梯度消失和梯度爆炸问题。为了应对这些挑战,残差连接和各种归一化方法被引入并广泛应用于现代深度学习模型中。本文将首先介绍残差连接和两种架构,分别是 pre-norm 和 post-norm。随后介绍四种常见的方法:Batch Normalization、Layer Normalization、Weight Normalization 和 RMS Normalization,并分析为何当前主流的大模型倾向于采用 RMSNorm 与 Pre-Norm 结合的架构。 ...

Created: 2025-02-01 · Updated: 2025-02-01 · 10 分钟 · 4690 字 · Yue Shui

OpenAI o1复现进展:DeepSeek-R1

DeepSeek AI 近期发布 DeepSeek-R1 (DeepSeek-AI, 2025),其推理性能在多个 benchmark 上已接近 OpenAI o1 (OpenAI, 2024)的水平,是开源社区成功复现 o1 的重要一步。R1 相关代码可以参考huggingface 尝试开源复现 open-r1 项目。以往的研究多依赖于海量的监督数据来提升大语言模型(Large Language Model, LLM)性能,但 DeepSeek-R1 及其早期实验 DeepSeek-R1-Zero 的成功,有力证明了纯粹大规模强化学习在提升 LLM 推理能力方面的潜力。其印证了 Richard Sutton 在 “The Bitter Lesson” 中提出的深刻见解: ...

Created: 2025-01-27 · Updated: 2025-01-27 · 36 分钟 · 17588 字 · Yue Shui