👋 欢迎访问我的博客

你好，我是Yue Shui，目前在 PwC 担任 LLM 算法工程师。我的工作包括研究和应用大型语言模型到金融、审计和代码生成等领域。这个博客是我用来记录和分享工作与学习过程中见解。文章中的语法错误或许能透露出 ChatGPT 的参与程度😉-——记得告诉我！我的兴趣包括模型训练、RAG 以及 Agent。最近，我在学习利用强化学习训练推理模型。欢迎交流！

gpt-oss & GPT-5 (更新中)

注意: 本文正在更新中，内容只是草稿版本，并不完善，后续会有较大变动。请随时关注最新版本。 2025 年 8 月，人工智能领域迎来了 OpenAI 的密集发布期。继 2019 年 GPT-2 之后，OpenAI 再次向开源社区贡献了其首个开放权重的大型语言模型系列 gpt-oss (OpenAI, 2025a)，包含 120B 和 20B 两种规模。紧随其后，备受瞩目的下一代旗舰模型 GPT-5 (OpenAI, 2025b) 也正式发布。这一系列发布不仅标志着开源模型在推理和智能体（Agentic）能力上达到了新的高度，也揭示了 OpenAI 在模型架构、训练方法论以及安全对齐方面的最新进展。 ...

大语言模型推理

近年来，大语言模型 (Large Language Models, LLMs) 在自然语言处理、代码生成乃至多模态交互等领域取得了革命性的突破。然而，这些模型强大的能力背后是巨大的计算和内存开销，尤其是在推理 (Inference) 阶段。高效地部署和运行这些数十亿甚至数万亿参数的模型，已成为将 LLM 技术规模化应用到实际产品中的核心挑战。 ...

vLLM：高吞吐、有效内存的LLM服务引擎

随着大语言模型 (Large Language Models, LLMs) 参数不断增大，实际部署和提供这些模型的服务也面临挑战。vLLM 是一个开源库，旨在实现快速、便捷且经济高效的 LLM 推理和在线服务。其核心是利用 PagedAttention 算法高效地管理注意力机制中的键和值的缓存（KV Cache）。 ...

多模态大语言模型

人类通过多种感官（视觉、听觉、触觉等）与世界互动，每种感官通道在表征和交流特定概念时都具有独特的优势。这种多模态交互促进了我们对世界的深刻理解。人工智能领域的核心目标之一便是开发能够有效遵循多模态指令（如视觉和语言）的通用助手，使其能够像人类一样完成现实世界的各种任务。近年来，随着 GPT-4o (OpenAI, 2024)、Gemini 2.5 Pro (DeepMind, 2025) 和 o3/o4-mini (OpenAI, 2025) 等模型的发布，多模态大语言模型（Multimodal Large Language Models, MLLMs）取得了显著进展，它们不仅能理解图像、视频、音频等多种模态信息，还能进行复杂的推理和生成。 ...

DeepSeek-V2 vs V3

DeepSeek AI 先后发布了 DeepSeek-V2 (DeepSeek-AI, 2024) 和 DeepSeek-V3 (DeepSeek-AI, 2024)，这两款强大的混合专家（Mixture-of-Experts, MoE）语言模型在保持顶尖性能的同时，显著优化了训练成本和推理效率。DeepSeek-V2 拥有 236B 总参数，每次激活 21B；而 DeepSeek-V3 则进一步扩展至 671B 总参数，每次激活 37B。两者均支持 128K 上下文长度。 ...