Agentic RL
大语言模型(LLMs)目前应用场景不断扩展,但也暴露出知识截止、幻觉以及复杂计算与逻辑推理不足等局限。为应对这些挑战,将智能体(Agent)与强化学习(Reinforcement Learning, RL)相结合的 Agentic RL 正逐渐成为关键研究方向。 ...
大语言模型(LLMs)目前应用场景不断扩展,但也暴露出知识截止、幻觉以及复杂计算与逻辑推理不足等局限。为应对这些挑战,将智能体(Agent)与强化学习(Reinforcement Learning, RL)相结合的 Agentic RL 正逐渐成为关键研究方向。 ...
OpenAI Deep Research (OpenAI, 2025) 主要是采用以 o3 推理模型为基座的多 agent 协作方式。相关开源研究和产品之前也有不少,比如 GPT Researcher 和 Google Gemini 版本的 Deep Research (DeepMind, 2024)。不过 OpenAI 的产品是博主目前体验下来效果最好。之后咨询分析、论文综述和新闻编辑等任务都可以先让这个工具自动化完成,然后再由人工进行最后的修正和审查,怎么感觉之后我写技术博客的任务也会被替代了呢?😂 ...