代码智能体生成 GPU Kernel

注意: 本文正在更新中,请随时关注最新版本。 我最近参加了 FlashInfer AI Kernel Generation Contest(FlashInfer Contest, 2026)。这篇博客并不是一篇关于 CUDA kernel 优化技巧的教程,我本身并不是 GPU 算子开发专家;参加这次比赛的主要目的,是想借助一个高度可验证、反馈明确的任务环境,研究 如何让 Coding Agent 在持续闭环中产出高质量的 GPU kernel。完整的技术报告参见 Harness Engineering for LLM-Driven GPU Kernel Generation(Shui et al., 2026),公开仓库在 mlsys26-flashinfer-contest。 ...

Created: 2026-05-18 · Updated: 2026-05-21 · 4 分钟 · 1822 字 · Yue Shui

Self-Evolving Agents

最近,AI 领域正在经历一次关键的结构性转变:Agent 的核心竞争力,正从一次性生成正确答案,转向在闭环系统中持续产生可验证、可进化的新结果。这一转变的标志性事件是 DeepMind 发布的 AlphaEvolve,它通过 LLM 驱动的进化编码,在数学、算法与工程优化领域取得了多项突破,在部分任务上超越了人类已知最优解。在这一框架下,人类与 Agent 的分工发生了明确重构: ...

Created: 2026-02-20 · Updated: 2026-03-16 · 11 分钟 · 5201 字 · Yue Shui

DeepSeek-V3.2 系列

通过引入 DeepSeek Sparse Attention (DSA) 高效注意力机制、可扩展的强化学习框架以及大规模智能体任务合成管道,DeepSeek-V3.2(DeepSeek-AI, 2025)在推理能力和智能体性能上实现了与 GPT-5 相当的水平。 ...

Created: 2025-12-31 · Updated: 2025-12-31 · 12 分钟 · 5950 字 · Yue Shui

Scaling Laws

从 GPT 系列的演进中,研究者逐渐意识到:只要持续扩大模型参数、训练数据和计算资源,大模型性能便会沿着稳定且可预测的路径不断提升。这种可预测性正是由 Scaling Laws 所刻画,它为成本高昂的预训练提供了理论基础与实践信心。随着模型规模、对齐技术以及推理阶段的计算不断协同演化,AI 的能力边界正在系统性地被推高。它不仅是构建下一代模型的基础,也是在算力约束下持续提升模型能力的关键方法论。 ...

Created: 2025-11-19 · Updated: 2025-12-03 · 9 分钟 · 4318 字 · Yue Shui

Agentic RL

大语言模型(LLMs)目前应用场景不断扩展,但也暴露出知识截止、幻觉以及复杂计算与逻辑推理不足等局限。为应对这些挑战,将智能体(Agent)与强化学习(Reinforcement Learning, RL)相结合的 Agentic RL 正逐渐成为关键研究方向。 ...

Created: 2025-09-30 · Updated: 2025-09-30 · 18 分钟 · 8887 字 · Yue Shui