从”推理思维”到”智能体思维”

作者:林俊阳(Junyang Lin),通义千问 Qwen 团队
原文发布于 2026-03-26

核心论点

我们正在从”训练模型”的时代,过渡到”训练智能体”的时代,再到”训练系统”的时代。 思维的形态正在从孤立的长链推理(reasoning thinking),转向在与环境交互中持续行动的智能体思维(agentic thinking)。


1. o1 和 R1 的真正启示

  • OpenAI 的 o1 证明了”思考”可以作为一种一等能力来训练和展示;DeepSeek-R1 证明推理式后训练可以在原始实验室之外被复现和规模化
  • 核心教训:要在语言模型中规模化 RL,需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑等可验证领域成为核心,因为其奖励信号远强于通用偏好监督
  • 推理模型的涌现既是建模故事,也是基础设施故事 —— 需要大规模 rollout、高吞吐验证、稳定的策略更新和高效采样
  • 第一次大转变:从扩展预训练到扩展推理后训练

AI 范式三阶段演进:从扩展预训练到训练智能体

2. “合并思考与指令模式”远比想象中困难

  • Qwen3 尝试将思考模式与指令模式统一(hybrid thinking modes),支持可控思考预算和四阶段后训练流水线
  • 核心难点在于数据
    • 指令模式追求:直接、简洁、格式合规、低延迟,适用于重写、标注、结构化提取等高频企业任务
    • 思考模式追求:在困难问题上花更多 token、保持连贯的中间推理结构、探索替代路径
    • 两种行为画像相互拉扯,数据不精心策划则两头都做不好
  • 实际中分离仍有吸引力:Qwen 2507 系列最终发布了独立的 Instruct 和 Thinking 版本(30B 和 235B),大量商业客户仍需要高吞吐、低成本、高可控的指令行为
  • 其他实验室的选择:Anthropic 主张集成式理念(Claude 3.7/4),GLM-4.5 和 DeepSeek V3.1 也走向混合推理
  • 关键问题:合并是否是有机的?理想情况是模型拥有连续谱系的推理力度,能自适应选择推理深度

3. Anthropic 的方向是有益的纠偏

  • Anthropic 强调:更长的推理轨迹不一定等于更智能,过度可见推理往往是资源分配失败的信号
  • 思维应由目标工作负载来塑造
    • 如果目标是编码 → 思维应帮助代码库导航、规划、分解、错误恢复和工具编排
    • 如果目标是 Agent 工作流 → 思维应改善长时程执行质量,而非产出华丽的中间文本
  • 这指向一个更大转变:从训练模型到训练智能体

4. “智能体思维”的真正含义

推理思维关注的是”模型能否想得足够久?”
智能体思维关注的是”模型能否以维持有效行动的方式来思考?”

智能体思维需要处理纯推理模型可以回避的问题:

  • 何时停止思考并采取行动
  • 选择调用哪个工具、以什么顺序
  • 整合来自环境的嘈杂或部分观测
  • 失败后修订计划
  • 在多轮次、多工具调用中保持连贯性

一言以蔽之:智能体思维 = 通过行动来推理的模型

推理思维 vs 智能体思维核心对比

5. 智能体 RL 基础设施更难

  • 经典推理 RL 的 rollout 基本是自包含的,有相对干净的评估器
  • 智能体 RL 中,策略嵌入更大的系统:工具服务器、浏览器、终端、搜索引擎、模拟器、沙箱、API 层、记忆系统、编排框架
  • 新的系统要求:训练与推理必须更清晰地解耦,否则 rollout 吞吐量会崩溃
  • 环境本身成为一等研究成果
    • SFT 时代我们痴迷于数据多样性
    • Agent 时代我们应痴迷于环境质量:稳定性、真实性、覆盖度、难度、状态多样性、反馈丰富度、抗利用性、rollout 可扩展性
    • 环境构建已开始成为真正的创业品类

智能体 RL 环境全景:经典推理 RL vs 智能体 RL

6. 下一前沿:更可用的思维

  • 智能体思维将成为主导形式,可能最终取代旧式的静态独白推理
  • 即使面对极难的数学或编码任务,先进系统也应有权搜索、模拟、执行、检查、验证和修正
  • 最大挑战是 Reward Hacking(奖励欺骗)
    • 带搜索的模型可能在 RL 中直接查找答案
    • 编码智能体可能利用仓库中的未来信息、滥用日志或发现使任务失效的捷径
    • 下一个严重研究瓶颈将来自:环境设计、评估器鲁棒性、反作弊协议
  • 未来的系统形态:编排器(规划和路由)+ 领域专家智能体 + 子智能体(执行窄任务、控制上下文、避免污染)

未来系统架构:编排器 + 领域专家智能体 + 子智能体


总结

维度 推理时代 智能体时代
核心目标 更长更好的内部思考 在交互中持续有效行动
优化对象 模型 模型 + 环境系统(智能体 + 外部工具链)
关键研究成果 模型架构、训练数据 环境设计、rollout 基础设施、评估器鲁棒性、多智能体协调接口
“好的思维”定义 最长、最可见的推理链 在真实约束下维持行动的最有用轨迹
竞争优势来源 更好的 RL 算法、更强的反馈信号、更可扩展的训练流水线 更好的环境、更紧密的训练-服务集成、更强的工具链工程、闭环决策能力