DeepSeek-V2 vs V3

DeepSeek AI 先后发布了 DeepSeek-V2 (DeepSeek-AI, 2024) 和 DeepSeek-V3 (DeepSeek-AI, 2024),这两款强大的混合专家(Mixture-of-Experts, MoE)语言模型在保持顶尖性能的同时,显著优化了训练成本和推理效率。DeepSeek-V2 拥有 236B 总参数,每次激活 21B;而 DeepSeek-V3 则进一步扩展至 671B 总参数,每次激活 37B。两者均支持 128K 上下文长度。 ...

2025-04-18 · 46 分钟 · 23032 字 · Yue Shui