vLLM:高吞吐、有效内存的LLM服务引擎
随着大语言模型 (Large Language Models, LLMs) 参数不断增大,实际部署和提供这些模型的服务也面临挑战。vLLM 是一个开源库,旨在实现快速、便捷且经济高效的 LLM 推理和在线服务。其核心是利用 PagedAttention 算法高效地管理注意力机制中的键和值的缓存(KV Cache)。 ...
随着大语言模型 (Large Language Models, LLMs) 参数不断增大,实际部署和提供这些模型的服务也面临挑战。vLLM 是一个开源库,旨在实现快速、便捷且经济高效的 LLM 推理和在线服务。其核心是利用 PagedAttention 算法高效地管理注意力机制中的键和值的缓存(KV Cache)。 ...
DeepSeek AI 先后发布了 DeepSeek-V2 (DeepSeek-AI, 2024) 和 DeepSeek-V3 (DeepSeek-AI, 2024),这两款强大的混合专家(Mixture-of-Experts, MoE)语言模型在保持顶尖性能的同时,显著优化了训练成本和推理效率。DeepSeek-V2 拥有 236B 总参数,每次激活 21B;而 DeepSeek-V3 则进一步扩展至 671B 总参数,每次激活 37B。两者均支持 128K 上下文长度。 ...
背景 Transformer (Vaswani et al., 2017)是一种基于编码器-解码器架构的模型。此模型在自然处理领域中展示了卓越的性能,随后一系列模型在此基础上进行了优化,例如仅使用编码器的 BERT (Devlin et al., 2018)或仅使用解码器的 GPT (Radford et al., 2018)系列,以及后续的大型语言模型如 LLaMA (Touvron et al., 2023)和 GPT-4 (OpenAI al., 2024)系列,这些模型大多采用了仅解码器的结构。 ...