LLMs | Yue Shui 博客

vLLM：高吞吐、有效内存的LLM服务引擎

随着大语言模型 (Large Language Models, LLMs) 参数不断增大，实际部署和提供这些模型的服务也面临挑战。vLLM 是一个开源库，旨在实现快速、便捷且经济高效的 LLM 推理和在线服务。其核心是利用 PagedAttention 算法高效地管理注意力机制中的键和值的缓存（KV Cache）。 ...

训练大模型并行和内存优化技术

背景最近大模型的参数数量不断攀升，从最初的数十亿扩展到如今数千亿乃至数万亿级别。大模模型虽然带来了前所未有的应用效果，但与此同时，也引发了计算资源、内存管理和训练稳定性等一系列严峻挑战。因此本博客总结了一些常用分布式并行训练和内存管理技术，希望能够帮助大家更好地训练和优化大模型。 ...