大语言模型推理

近年来,大语言模型 (Large Language Models, LLMs) 在自然语言处理、代码生成乃至多模态交互等领域取得了革命性的突破。然而,这些模型强大的能力背后是巨大的计算和内存开销,尤其是在推理 (Inference) 阶段。高效地部署和运行这些数十亿甚至数万亿参数的模型,已成为将 LLM 技术规模化应用到实际产品中的核心挑战。 ...

2025-06-29 · 33 分钟 · 16184 字 · Yue Shui

DeepSeek-V2 vs V3

DeepSeek AI 先后发布了 DeepSeek-V2 (DeepSeek-AI, 2024) 和 DeepSeek-V3 (DeepSeek-AI, 2024),这两款强大的混合专家(Mixture-of-Experts, MoE)语言模型在保持顶尖性能的同时,显著优化了训练成本和推理效率。DeepSeek-V2 拥有 236B 总参数,每次激活 21B;而 DeepSeek-V3 则进一步扩展至 671B 总参数,每次激活 37B。两者均支持 128K 上下文长度。 ...

2025-04-18 · 46 分钟 · 23038 字 · Yue Shui

LLaMA 系列模型

LLaMA Meta AI 推出的 LLaMA 系列开源模型已成为大语言模型社区的基石之一,对推动开放研究和应用产生了深远影响。从 2023 年初发布的开创性 LLaMA,到同年性能显著提升的 LLaMA 2,再到针对特定领域(如代码、安全)的衍生模型,以及 2024 年和 2025 年相继推出的新一代 LLaMA 3 和 LLaMA 4,Meta 持续致力于提升开源模型的性能,使其逐步逼近最先进的闭源模型。下面,我们将依次介绍每个主要模型的关键技术细节。 ...

2025-04-06 · 26 分钟 · 12788 字 · Yue Shui

OpenAI Deep Research 案例分享 - 深度研究技术综合研究报告

OpenAI Deep Research (OpenAI, 2025) 主要是采用以 o3 推理模型为基座的多 agent 协作方式。相关开源研究和产品之前也有不少,比如 GPT Researcher 和 Google Gemini 版本的 Deep Research (DeepMind, 2024)。不过 OpenAI 的产品是博主目前体验下来效果最好。之后咨询分析、论文综述和新闻编辑等任务都可以先让这个工具自动化完成,然后再由人工进行最后的修正和审查,怎么感觉之后我写技术博客的任务也会被替代了呢?😂 ...

2025-02-15 · 52 分钟 · 25985 字 · Yue Shui & OpenAI Deep Research

大语言模型对齐: 直接偏好优化(DPO)

这篇博客主要介绍一种比 RLHF 更精简的替代算法 DPO。与 RLHF 一样,DPO 目的是使模型输出与人类偏好保持一致,但它在实现上更加简单,并且对资源的需求更低。在项目资源受限的情况下,DPO 是一个实用解决方案。 ...

2025-02-08 · 9 分钟 · 4127 字 · Yue Shui