训练大模型并行和内存优化技术

背景 最近大模型的参数数量不断攀升,从最初的数十亿扩展到如今数千亿乃至数万亿级别。大模模型虽然带来了前所未有的应用效果,但与此同时,也引发了计算资源、内存管理和训练稳定性等一系列严峻挑战。因此本博客总结了一些常用分布式并行训练和内存管理技术,希望能够帮助大家更好地训练和优化大模型。 ...

2025-03-01 · 46 分钟 · 22555 字 · Yue Shui

Transformer注意力机制:MHA、MQA与GQA的对比

背景 Transformer (Vaswani et al., 2017)是一种基于编码器-解码器架构的模型。此模型在自然处理领域中展示了卓越的性能,随后一系列模型在此基础上进行了优化,例如仅使用编码器的 BERT (Devlin et al., 2018)或仅使用解码器的 GPT (Radford et al., 2018)系列,以及后续的大型语言模型如 LLaMA (Touvron et al., 2023)和 GPT-4 (OpenAI al., 2024)系列,这些模型大多采用了仅解码器的结构。 ...

2025-01-16 · 22 分钟 · 10726 字 · Yue Shui

基于双卡 RTX 4090 搭建家用深度学习主机

租用 GPU 还是购买 GPU? 在构建深度学习工作环境之前,首先需要综合考虑 使用周期、预算、数据隐私 以及 维护成本。如果长期(例如超过一年以上)且对数据安全要求较高,自建 GPU 服务器通常能带来更低的综合成本和更可控的环境;如果只是短期项目,或对数据隐私不敏感,那么租用云上 GPU(如 Azure、AWS、GCP 等)或使用免费平台(Colab、Kaggle)则更加灵活。 ...

2024-12-21 · 9 分钟 · 4095 字 · Yue Shui