代码智能体生成 GPU Kernel

注意: 本文正在更新中,请随时关注最新版本。 我最近参加了 FlashInfer AI Kernel Generation Contest(FlashInfer Contest, 2026)。这篇博客并不是一篇关于 CUDA kernel 优化技巧的教程,我本身并不是 GPU 算子开发专家;参加这次比赛的主要目的,是想借助一个高度可验证、反馈明确的任务环境,研究 如何让 Coding Agent 在持续闭环中产出高质量的 GPU kernel。完整的技术报告参见 Harness Engineering for LLM-Driven GPU Kernel Generation(Shui et al., 2026),公开仓库在 mlsys26-flashinfer-contest。 ...

Created: 2026-05-18 · Updated: 2026-05-21 · 4 分钟 · 1822 字 · Yue Shui

DeepSeek-V3.2 系列

通过引入 DeepSeek Sparse Attention (DSA) 高效注意力机制、可扩展的强化学习框架以及大规模智能体任务合成管道,DeepSeek-V3.2(DeepSeek-AI, 2025)在推理能力和智能体性能上实现了与 GPT-5 相当的水平。 ...

Created: 2025-12-31 · Updated: 2025-12-31 · 12 分钟 · 5950 字 · Yue Shui

Scaling Laws

从 GPT 系列的演进中,研究者逐渐意识到:只要持续扩大模型参数、训练数据和计算资源,大模型性能便会沿着稳定且可预测的路径不断提升。这种可预测性正是由 Scaling Laws 所刻画,它为成本高昂的预训练提供了理论基础与实践信心。随着模型规模、对齐技术以及推理阶段的计算不断协同演化,AI 的能力边界正在系统性地被推高。它不仅是构建下一代模型的基础,也是在算力约束下持续提升模型能力的关键方法论。 ...

Created: 2025-11-19 · Updated: 2025-12-03 · 9 分钟 · 4318 字 · Yue Shui

Agentic RL

大语言模型(LLMs)目前应用场景不断扩展,但也暴露出知识截止、幻觉以及复杂计算与逻辑推理不足等局限。为应对这些挑战,将智能体(Agent)与强化学习(Reinforcement Learning, RL)相结合的 Agentic RL 正逐渐成为关键研究方向。 ...

Created: 2025-09-30 · Updated: 2025-09-30 · 18 分钟 · 8887 字 · Yue Shui

大语言模型推理

近年来,大语言模型 (Large Language Models, LLMs) 在自然语言处理、代码生成乃至多模态交互等领域取得了革命性的突破。然而,这些模型强大的能力背后是巨大的计算和内存开销,尤其是在推理 (Inference) 阶段。高效地部署和运行这些数十亿甚至数万亿参数的模型,已成为将 LLM 技术规模化应用到实际产品中的核心挑战。 ...

Created: 2025-06-29 · Updated: 2025-06-29 · 33 分钟 · 16184 字 · Yue Shui