LLM | Yue Shui 博客

如何选择合适的 Agent 架构？

面向长任务场景的上下文管理与多执行单元协同，是当前 Agent 研究中的核心问题之一。在大语言模型智能体中我介绍过 Agent 的规划、记忆与工具使用三大模块；在 Self-Evolving Agents 与 FlashInfer 比赛总结中，我讨论了 Harness Engineering 这一范式：人类负责设计约束、反馈与评估，Agent 在受控闭环里迭代产出可验证的结果。这篇博客聚焦更具体的一层问题：当任务变长、变复杂应该用什么架构来组织 Agent？ ...

基于代码智能体的 GPU Kernel 生成与优化：MLSys 2026 FlashInfer 比赛总结

我最近参加了 MLSys 2026 - NVIDIA Track: FlashInfer AI Kernel Generation Contest（FlashInfer Contest, 2026a）。这篇博客并不是一篇关于 CUDA kernel 优化技巧的教程，我本身并不是 GPU 算子开发专家；参加这次比赛的主要目的，是想借助一个高度可验证、反馈明确的任务环境，研究如何让 Coding Agent 在持续闭环中产出高质量的 GPU kernel。 ...

DeepSeek-V3.2 系列

通过引入 DeepSeek Sparse Attention (DSA) 高效注意力机制、可扩展的强化学习框架以及大规模智能体任务合成管道，DeepSeek-V3.2(DeepSeek-AI, 2025)在推理能力和智能体性能上实现了与 GPT-5 相当的水平。 ...

Scaling Laws

从 GPT 系列的演进中，研究者逐渐意识到：只要持续扩大模型参数、训练数据和计算资源，大模型性能便会沿着稳定且可预测的路径不断提升。这种可预测性正是由 Scaling Laws 所刻画，它为成本高昂的预训练提供了理论基础与实践信心。随着模型规模、对齐技术以及推理阶段的计算不断协同演化，AI 的能力边界正在系统性地被推高。它不仅是构建下一代模型的基础，也是在算力约束下持续提升模型能力的关键方法论。 ...

Agentic RL

大语言模型（LLMs）目前应用场景不断扩展，但也暴露出知识截止、幻觉以及复杂计算与逻辑推理不足等局限。为应对这些挑战，将智能体（Agent）与强化学习（Reinforcement Learning, RL）相结合的 Agentic RL 正逐渐成为关键研究方向。 ...