AI | Yue Shui 博客

DeepSeek-V2 vs V3

DeepSeek AI 先后发布了 DeepSeek-V2 (DeepSeek-AI, 2024) 和 DeepSeek-V3 (DeepSeek-AI, 2024)，这两款强大的混合专家（Mixture-of-Experts, MoE）语言模型在保持顶尖性能的同时，显著优化了训练成本和推理效率。DeepSeek-V2 拥有 236B 总参数，每次激活 21B；而 DeepSeek-V3 则进一步扩展至 671B 总参数，每次激活 37B。两者均支持 128K 上下文长度。 ...

LLaMA 系列模型

LLaMA Meta AI 推出的 LLaMA 系列开源模型已成为大语言模型社区的基石之一，对推动开放研究和应用产生了深远影响。从 2023 年初发布的开创性 LLaMA，到同年性能显著提升的 LLaMA 2，再到针对特定领域（如代码、安全）的衍生模型，以及 2024 年和 2025 年相继推出的新一代 LLaMA 3 和 LLaMA 4，Meta 持续致力于提升开源模型的性能，使其逐步逼近最先进的闭源模型。下面，我们将依次介绍每个主要模型的关键技术细节。 ...

大语言模型智能体

智能体自 2022 年 10 月 OpenAI 发布 ChatGPT 以来，随着后续 AutoGPT 和 AgentGPT 等项目的涌现，LLM 相关的智能体（Agent）逐渐成为近年来 AI 的研究热点和实际应用方向。本文将介绍智能体的基本概念、核心技术及其最新应用进展。 ...

训练大模型并行和内存优化技术

背景最近大模型的参数数量不断攀升，从最初的数十亿扩展到如今数千亿乃至数万亿级别。大模模型虽然带来了前所未有的应用效果，但与此同时，也引发了计算资源、内存管理和训练稳定性等一系列严峻挑战。因此本博客总结了一些常用分布式并行训练和内存管理技术，希望能够帮助大家更好地训练和优化大模型。 ...

OpenAI Deep Research 案例分享 - 深度研究技术综合研究报告

OpenAI Deep Research (OpenAI, 2025) 主要是采用以 o3 推理模型为基座的多 agent 协作方式。相关开源研究和产品之前也有不少，比如 GPT Researcher 和 Google Gemini 版本的 Deep Research (DeepMind, 2024)。不过 OpenAI 的产品是博主目前体验下来效果最好。之后咨询分析、论文综述和新闻编辑等任务都可以先让这个工具自动化完成，然后再由人工进行最后的修正和审查，怎么感觉之后我写技术博客的任务也会被替代了呢？😂 ...