代码智能体生成 GPU Kernel

注意: 本文正在更新中,请随时关注最新版本。 我最近参加了 FlashInfer AI Kernel Generation Contest(FlashInfer Contest, 2026)。这篇博客并不是一篇关于 CUDA kernel 优化技巧的教程,我本身并不是 GPU 算子开发专家;参加这次比赛的主要目的,是想借助一个高度可验证、反馈明确的任务环境,研究 如何让 Coding Agent 在持续闭环中产出高质量的 GPU kernel。完整的技术报告参见 Harness Engineering for LLM-Driven GPU Kernel Generation(Shui et al., 2026),公开仓库在 mlsys26-flashinfer-contest。 ...

Created: 2026-05-18 · Updated: 2026-05-21 · 4 分钟 · 1822 字 · Yue Shui

DeepSeek-V3.2 系列

通过引入 DeepSeek Sparse Attention (DSA) 高效注意力机制、可扩展的强化学习框架以及大规模智能体任务合成管道,DeepSeek-V3.2(DeepSeek-AI, 2025)在推理能力和智能体性能上实现了与 GPT-5 相当的水平。 ...

Created: 2025-12-31 · Updated: 2025-12-31 · 12 分钟 · 5950 字 · Yue Shui

Agentic RL

大语言模型(LLMs)目前应用场景不断扩展,但也暴露出知识截止、幻觉以及复杂计算与逻辑推理不足等局限。为应对这些挑战,将智能体(Agent)与强化学习(Reinforcement Learning, RL)相结合的 Agentic RL 正逐渐成为关键研究方向。 ...

Created: 2025-09-30 · Updated: 2025-09-30 · 18 分钟 · 8887 字 · Yue Shui