vLLM:高吞吐、有效内存的LLM服务引擎
随着大语言模型 (Large Language Models, LLMs) 参数不断增大,实际部署和提供这些模型的服务也面临挑战。vLLM 是一个开源库,旨在实现快速、便捷且经济高效的 LLM 推理和在线服务。其核心是利用 PagedAttention 算法高效地管理注意力机制中的键和值的缓存(KV Cache)。 ...
多模态大语言模型
人类通过多种感官(视觉、听觉、触觉等)与世界互动,每种感官通道在表征和交流特定概念时都具有独特的优势。这种多模态交互促进了我们对世界的深刻理解。人工智能领域的核心目标之一便是开发能够有效遵循多模态指令(如视觉和语言)的通用助手,使其能够像人类一样完成现实世界的各种任务。近年来,随着 GPT-4o (OpenAI, 2024)、Gemini 2.5 Pro (DeepMind, 2025) 和 o3/o4-mini (OpenAI, 2025) 等模型的发布,多模态大语言模型(Multimodal Large Language Models, MLLMs) 取得了显著进展,它们不仅能理解图像、视频、音频等多种模态信息,还能进行复杂的推理和生成。 ...
DeepSeek-V2 vs V3
DeepSeek AI 先后发布了 DeepSeek-V2 (DeepSeek-AI, 2024) 和 DeepSeek-V3 (DeepSeek-AI, 2024),这两款强大的混合专家(Mixture-of-Experts, MoE)语言模型在保持顶尖性能的同时,显著优化了训练成本和推理效率。DeepSeek-V2 拥有 236B 总参数,每次激活 21B;而 DeepSeek-V3 则进一步扩展至 671B 总参数,每次激活 37B。两者均支持 128K 上下文长度。 ...
LLaMA 系列模型
LLaMA Meta AI 推出的 LLaMA 系列开源模型已成为大语言模型社区的基石之一,对推动开放研究和应用产生了深远影响。从 2023 年初发布的开创性 LLaMA,到同年性能显著提升的 LLaMA 2,再到针对特定领域(如代码、安全)的衍生模型,以及 2024 年和 2025 年相继推出的新一代 LLaMA 3 和 LLaMA 4,Meta 持续致力于提升开源模型的性能,使其逐步逼近最先进的闭源模型。下面,我们将依次介绍每个主要模型的关键技术细节。 ...
大语言模型智能体
智能体 自 2022 年 10 月 OpenAI 发布 ChatGPT 以来,随着后续 AutoGPT 和 AgentGPT 等项目的涌现,LLM 相关的智能体(Agent)逐渐成为近年来 AI 的研究热点和实际应用方向。本文将介绍智能体的基本概念、核心技术及其最新应用进展。 ...