大语言模型推理
近年来,大语言模型 (Large Language Models, LLMs) 在自然语言处理、代码生成乃至多模态交互等领域取得了革命性的突破。然而,这些模型强大的能力背后是巨大的计算和内存开销,尤其是在推理 (Inference) 阶段。高效地部署和运行这些数十亿甚至数万亿参数的模型,已成为将 LLM 技术规模化应用到实际产品中的核心挑战。 ...
近年来,大语言模型 (Large Language Models, LLMs) 在自然语言处理、代码生成乃至多模态交互等领域取得了革命性的突破。然而,这些模型强大的能力背后是巨大的计算和内存开销,尤其是在推理 (Inference) 阶段。高效地部署和运行这些数十亿甚至数万亿参数的模型,已成为将 LLM 技术规模化应用到实际产品中的核心挑战。 ...
随着大语言模型 (Large Language Models, LLMs) 参数不断增大,实际部署和提供这些模型的服务也面临挑战。vLLM 是一个开源库,旨在实现快速、便捷且经济高效的 LLM 推理和在线服务。其核心是利用 PagedAttention 算法高效地管理注意力机制中的键和值的缓存(KV Cache)。 ...
DeepSeek AI 先后发布了 DeepSeek-V2 (DeepSeek-AI, 2024) 和 DeepSeek-V3 (DeepSeek-AI, 2024),这两款强大的混合专家(Mixture-of-Experts, MoE)语言模型在保持顶尖性能的同时,显著优化了训练成本和推理效率。DeepSeek-V2 拥有 236B 总参数,每次激活 21B;而 DeepSeek-V3 则进一步扩展至 671B 总参数,每次激活 37B。两者均支持 128K 上下文长度。 ...
背景 Transformer (Vaswani et al., 2017)是一种基于编码器-解码器架构的模型。此模型在自然处理领域中展示了卓越的性能,随后一系列模型在此基础上进行了优化,例如仅使用编码器的 BERT (Devlin et al., 2018)或仅使用解码器的 GPT (Radford et al., 2018)系列,以及后续的大型语言模型如 LLaMA (Touvron et al., 2023)和 GPT-4 (OpenAI al., 2024)系列,这些模型大多采用了仅解码器的结构。 ...