👋 欢迎访问我的博客

你好，我是 Yue Shui，目前从事大模型算法相关工作，研究方向为 Agentic RL。我的过往经历包括将 LLM 应用于金融、审计和代码生成等领域。这个博客用于记录和分享我在工作与学习中的见解。文章中的语法错误或许能透露出 ChatGPT 的参与程度😉——记得告诉我！我的兴趣包括模型训练、RAG 以及 LLM Agent。欢迎交流！

如何选择合适的 Agent 架构？

面向长任务场景的上下文管理与多执行单元协同，是当前 Agent 研究中的核心问题之一。在大语言模型智能体中我介绍过 Agent 的规划、记忆与工具使用三大模块；在 Self-Evolving Agents 与 FlashInfer 比赛总结中，我讨论了 Harness Engineering 这一范式：人类负责设计约束、反馈与评估，Agent 在受控闭环里迭代产出可验证的结果。这篇博客聚焦更具体的一层问题：当任务变长、变复杂应该用什么架构来组织 Agent？ ...

基于代码智能体的 GPU Kernel 生成与优化：MLSys 2026 FlashInfer 比赛总结

我最近参加了 MLSys 2026 - NVIDIA Track: FlashInfer AI Kernel Generation Contest（FlashInfer Contest, 2026a）。这篇博客并不是一篇关于 CUDA kernel 优化技巧的教程，我本身并不是 GPU 算子开发专家；参加这次比赛的主要目的，是想借助一个高度可验证、反馈明确的任务环境，研究如何让 Coding Agent 在持续闭环中产出高质量的 GPU kernel。 ...

Self-Evolving Agents

最近，AI 领域正在经历一次关键的结构性转变：Agent 的核心竞争力，正从一次性生成正确答案，转向在闭环系统中持续产生可验证、可进化的新结果。这一转变的标志性事件是 DeepMind 发布的 AlphaEvolve，它通过 LLM 驱动的进化编码，在数学、算法与工程优化领域取得了多项突破，在部分任务上超越了人类已知最优解。在这一框架下，人类与 Agent 的分工发生了明确重构： ...

DeepSeek-V3.2 系列

通过引入 DeepSeek Sparse Attention (DSA) 高效注意力机制、可扩展的强化学习框架以及大规模智能体任务合成管道，DeepSeek-V3.2(DeepSeek-AI, 2025)在推理能力和智能体性能上实现了与 GPT-5 相当的水平。 ...

Scaling Laws

从 GPT 系列的演进中，研究者逐渐意识到：只要持续扩大模型参数、训练数据和计算资源，大模型性能便会沿着稳定且可预测的路径不断提升。这种可预测性正是由 Scaling Laws 所刻画，它为成本高昂的预训练提供了理论基础与实践信心。随着模型规模、对齐技术以及推理阶段的计算不断协同演化，AI 的能力边界正在系统性地被推高。它不仅是构建下一代模型的基础，也是在算力约束下持续提升模型能力的关键方法论。 ...