RAG 技术综述(长期更新中)

注意: 本文正在更新中,内容只是草稿版本,并不完善,后续会有变动。请随时关注最新版本。 检索增强生成(Retrieval-Augmented Generation, RAG) 是一种结合大型语言模型(LLM)与外部知识库的先进技术框架。RAG 在回答问题时,不再仅依赖模型自身参数,而是通过实时检索外部知识库,显著降低模型的知识盲区,提升答案的准确性与可信度。 ...

2025-02-03 · 13 分钟 · 6494 字 · Yue Shui

深度学习中的归一化

引言 在深度学习中,网络架构的设计对模型的性能和训练效率有着至关重要的影响。随着模型深度的增加,训练深层神经网络面临诸多挑战,如梯度消失和梯度爆炸问题。为了应对这些挑战,残差连接和各种归一化方法被引入并广泛应用于现代深度学习模型中。本文将首先介绍残差连接和两种架构,分别是 pre-norm 和 post-norm。随后介绍四种常见的方法:Batch Normalization、Layer Normalization、Weight Normalization 和 RMS Normalization,并分析为何当前主流的大模型倾向于采用 RMSNorm 与 Pre-Norm 结合的架构。 ...

2025-02-01 · 10 分钟 · 4690 字 · Yue Shui

OpenAI o1复现进展:DeepSeek-R1

DeepSeek AI 近期发布 DeepSeek-R1 (DeepSeek-AI, 2025),其推理性能在多个 benchmark 上已接近 OpenAI o1 (OpenAI, 2024)的水平,是开源社区成功复现 o1 的重要一步。R1 相关代码可以参考huggingface 尝试开源复现 open-r1 项目。以往的研究多依赖于海量的监督数据来提升大语言模型(Large Language Model, LLM)性能,但 DeepSeek-R1 及其早期实验 DeepSeek-R1-Zero 的成功,有力证明了纯粹大规模强化学习在提升 LLM 推理能力方面的潜力。其印证了 Richard Sutton 在 “The Bitter Lesson” 中提出的深刻见解: ...

2025-01-27 · 36 分钟 · 17555 字 · Yue Shui

基座大语言模型:LLaMA、DeepSeek 等系列(长期更新)

注意: 本文正在更新中,内容只是草稿版本,并不完善,后续会有变动。请随时关注最新版本。 引言 本篇文章将系统梳理市面上开放权重的多种大语言模型,重点关注 LLaMA 和 DeepSeek 系列。我们将深入解析其模型架构、训练数据和训练方法,并通过表格揭示各版本间的核心差异与演进。 ...

2025-01-22 · 20 分钟 · 9854 字 · Yue Shui

Transformer注意力机制:MHA、MQA与GQA的对比

背景 Transformer (Vaswani et al., 2017)是一种基于编码器-解码器架构的模型。此模型在自然处理领域中展示了卓越的性能,随后一系列模型在此基础上进行了优化,例如仅使用编码器的 BERT (Devlin et al., 2018)或仅使用解码器的 GPT (Radford et al., 2018)系列,以及后续的大型语言模型如 LLaMA (Touvron et al., 2023)和 GPT-4 (OpenAI al., 2024)系列,这些模型大多采用了仅解码器的结构。 ...

2025-01-16 · 22 分钟 · 10726 字 · Yue Shui