LLM | Yue Shui 博客

LLaMA 系列模型

LLaMA Meta AI 推出的 LLaMA 系列开源模型已成为大语言模型社区的基石之一，对推动开放研究和应用产生了深远影响。从 2023 年初发布的开创性 LLaMA，到同年性能显著提升的 LLaMA 2，再到针对特定领域（如代码、安全）的衍生模型，以及 2024 年和 2025 年相继推出的新一代 LLaMA 3 和 LLaMA 4，Meta 持续致力于提升开源模型的性能，使其逐步逼近最先进的闭源模型。下面，我们将依次介绍每个主要模型的关键技术细节。 ...

OpenAI Deep Research 案例分享 - 深度研究技术综合研究报告

OpenAI Deep Research (OpenAI, 2025) 主要是采用以 o3 推理模型为基座的多 agent 协作方式。相关开源研究和产品之前也有不少，比如 GPT Researcher 和 Google Gemini 版本的 Deep Research (DeepMind, 2024)。不过 OpenAI 的产品是博主目前体验下来效果最好。之后咨询分析、论文综述和新闻编辑等任务都可以先让这个工具自动化完成，然后再由人工进行最后的修正和审查，怎么感觉之后我写技术博客的任务也会被替代了呢？😂 ...

大语言模型对齐: 直接偏好优化(DPO)

这篇博客主要介绍一种比 RLHF 更精简的替代算法 DPO。与 RLHF 一样，DPO 目的是使模型输出与人类偏好保持一致，但它在实现上更加简单，并且对资源的需求更低。在项目资源受限的情况下，DPO 是一个实用解决方案。 ...

检索增强生成 (RAG) 技术综述（长期更新中）

注意: 本文正在更新中，内容只是草稿版本，并不完善，后续会有较大变动。请随时关注最新版本。大型语言模型（Large Language Models, LLMs）在自然语言处理领域取得了革命性的进展，展现出强大的文本理解和生成能力。然而，LLMs 并非完美无缺，它们仍然面临着一些固有的挑战，例如： ...

深度学习中的归一化

引言在深度学习中，网络架构的设计对模型的性能和训练效率有着至关重要的影响。随着模型深度的增加，训练深层神经网络面临诸多挑战，如梯度消失和梯度爆炸问题。为了应对这些挑战，残差连接和各种归一化方法被引入并广泛应用于现代深度学习模型中。本文将首先介绍残差连接和两种架构，分别是 pre-norm 和 post-norm。随后介绍四种常见的方法：Batch Normalization、Layer Normalization、Weight Normalization 和 RMS Normalization，并分析为何当前主流的大模型倾向于采用 RMSNorm 与 Pre-Norm 结合的架构。 ...