👋 欢迎访问我的博客

你好,我是 Yue Shui,目前从事大模型算法相关工作,研究方向为 Agentic RL。我的过往经历包括将 LLM 应用于金融、审计和代码生成等领域。这个博客用于记录和分享我在工作与学习中的见解。文章中的语法错误或许能透露出 ChatGPT 的参与程度😉——记得告诉我!我的兴趣包括模型训练、RAG 以及 LLM Agent。欢迎交流!

Scaling Laws

从 GPT 系列的演进中,研究者逐渐意识到:只要持续扩大模型参数、训练数据和计算资源,大模型性能便会沿着稳定且可预测的路径不断提升。这种可预测性正是由 Scaling Laws 所刻画,它为成本高昂的预训练提供了理论基础与实践信心。随着模型规模、对齐技术以及推理阶段的计算不断协同演化,AI 的能力边界正在系统性地被推高。它不仅是构建下一代模型的基础,也是在算力约束下持续提升模型能力的关键方法论。 ...

Created: 2025-11-19 · Updated: 2025-11-19 · 9 分钟 · 4214 字 · Yue Shui

Agentic RL

大语言模型(LLMs)目前应用场景不断扩展,但也暴露出知识截止、幻觉以及复杂计算与逻辑推理不足等局限。为应对这些挑战,将智能体(Agent)与强化学习(Reinforcement Learning, RL)相结合的 Agentic RL 正逐渐成为关键研究方向。 ...

Created: 2025-09-30 · Updated: 2025-09-30 · 18 分钟 · 8887 字 · Yue Shui

gpt-oss & GPT-5

2025 年 8 月,AI 领域迎来了 OpenAI 的密集发布期。继 2019 年 GPT-2 (OpenAI, 2019) 之后,OpenAI 再次向开源社区贡献了其首个开放权重的大型语言模型系列 gpt-oss (OpenAI, 2025),包含 120B 和 20B 两种规模。紧随其后,备受瞩目的下一代旗舰模型 GPT-5 (OpenAI, 2025) 也正式发布。这一系列发布不仅标志着开源模型在推理和智能体能力上达到了新的高度,也揭示了 OpenAI 在模型架构、训练方法论以及安全对齐方面的最新进展。 ...

Created: 2025-08-24 · Updated: 2025-08-24 · 9 分钟 · 4305 字 · Yue Shui

大语言模型推理

近年来,大语言模型 (Large Language Models, LLMs) 在自然语言处理、代码生成乃至多模态交互等领域取得了革命性的突破。然而,这些模型强大的能力背后是巨大的计算和内存开销,尤其是在推理 (Inference) 阶段。高效地部署和运行这些数十亿甚至数万亿参数的模型,已成为将 LLM 技术规模化应用到实际产品中的核心挑战。 ...

Created: 2025-06-29 · Updated: 2025-06-29 · 33 分钟 · 16184 字 · Yue Shui

vLLM:高吞吐、有效内存的LLM服务引擎

随着大语言模型 (Large Language Models, LLMs) 参数不断增大,实际部署和提供这些模型的服务也面临挑战。vLLM 是一个开源库,旨在实现快速、便捷且经济高效的 LLM 推理和在线服务。其核心是利用 PagedAttention 算法高效地管理注意力机制中的键和值的缓存(KV Cache)。 ...

Created: 2025-05-17 · Updated: 2025-05-17 · 15 分钟 · 7455 字 · Yue Shui