vLLM:高吞吐、有效内存的LLM服务引擎

随着大语言模型 (Large Language Models, LLMs) 参数不断增大,实际部署和提供这些模型的服务也面临挑战。vLLM 是一个开源库,旨在实现快速、便捷且经济高效的 LLM 推理和在线服务。其核心是利用 PagedAttention 算法高效地管理注意力机制中的键和值的缓存(KV Cache)。 ...

2025-05-17 · 15 分钟 · 7477 字 · Yue Shui

训练大模型并行和内存优化技术

背景 最近大模型的参数数量不断攀升,从最初的数十亿扩展到如今数千亿乃至数万亿级别。大模模型虽然带来了前所未有的应用效果,但与此同时,也引发了计算资源、内存管理和训练稳定性等一系列严峻挑战。因此本博客总结了一些常用分布式并行训练和内存管理技术,希望能够帮助大家更好地训练和优化大模型。 ...

2025-03-01 · 46 分钟 · 22788 字 · Yue Shui