Scaling Laws
从 GPT 系列的演进中,研究者逐渐意识到:只要持续扩大模型参数、训练数据和计算资源,大模型性能便会沿着稳定且可预测的路径不断提升。这种可预测性正是由 Scaling Laws 所刻画,它为成本高昂的预训练提供了理论基础与实践信心。随着模型规模、对齐技术以及推理阶段的计算不断协同演化,AI 的能力边界正在系统性地被推高。它不仅是构建下一代模型的基础,也是在算力约束下持续提升模型能力的关键方法论。 ...
从 GPT 系列的演进中,研究者逐渐意识到:只要持续扩大模型参数、训练数据和计算资源,大模型性能便会沿着稳定且可预测的路径不断提升。这种可预测性正是由 Scaling Laws 所刻画,它为成本高昂的预训练提供了理论基础与实践信心。随着模型规模、对齐技术以及推理阶段的计算不断协同演化,AI 的能力边界正在系统性地被推高。它不仅是构建下一代模型的基础,也是在算力约束下持续提升模型能力的关键方法论。 ...
大语言模型(LLMs)目前应用场景不断扩展,但也暴露出知识截止、幻觉以及复杂计算与逻辑推理不足等局限。为应对这些挑战,将智能体(Agent)与强化学习(Reinforcement Learning, RL)相结合的 Agentic RL 正逐渐成为关键研究方向。 ...
近年来,大语言模型 (Large Language Models, LLMs) 在自然语言处理、代码生成乃至多模态交互等领域取得了革命性的突破。然而,这些模型强大的能力背后是巨大的计算和内存开销,尤其是在推理 (Inference) 阶段。高效地部署和运行这些数十亿甚至数万亿参数的模型,已成为将 LLM 技术规模化应用到实际产品中的核心挑战。 ...
DeepSeek AI 先后发布了 DeepSeek-V2 (DeepSeek-AI, 2024) 和 DeepSeek-V3 (DeepSeek-AI, 2024),这两款强大的混合专家(Mixture-of-Experts, MoE)语言模型在保持顶尖性能的同时,显著优化了训练成本和推理效率。DeepSeek-V2 拥有 236B 总参数,每次激活 21B;而 DeepSeek-V3 则进一步扩展至 671B 总参数,每次激活 37B。两者均支持 128K 上下文长度。 ...
LLaMA Meta AI 推出的 LLaMA 系列开源模型已成为大语言模型社区的基石之一,对推动开放研究和应用产生了深远影响。从 2023 年初发布的开创性 LLaMA,到同年性能显著提升的 LLaMA 2,再到针对特定领域(如代码、安全)的衍生模型,以及 2024 年和 2025 年相继推出的新一代 LLaMA 3 和 LLaMA 4,Meta 持续致力于提升开源模型的性能,使其逐步逼近最先进的闭源模型。下面,我们将依次介绍每个主要模型的关键技术细节。 ...