Deep Research

从生成到行动：Agentic AI 的架构、算法与 2026 路线图（含必读论文）

Kaizhi Tang

16 Feb 2026 • 10 min read

执行摘要（3–5 条）

Agentic AI 的本质不是“更会写”的大模型，而是把模型放进一个“感知—规划—行动—记忆—反馈”的闭环里，让系统能够在环境中持续推进目标。
2024–2026 的关键拐点是从管道式（pipeline-based）编排走向模型原生（model-native）：能力不再主要依赖胶水代码，而是更多通过大规模强化学习与推理时搜索内化进模型参数与策略。
推理与规划能力正在从“提示词技巧”升级为算法栈：CoT/ToT、ReAct、反思/自我改写 + MCTS、A*、进化搜索等，把“测试时算力（test-time compute）”变成可控的性能杠杆。
**Large Action Models（LAM）**与多代理系统把“会想”推进到“能做”：GUI/工具调用/机器人控制让自动化从脚本迈向可泛化的执行，但也带来可观测性、权限与安全的新约束。
对企业落地来说，胜负手不在“有没有 agent”，而在评估与治理：环境基准、成本—成功率曲线、Human-in-the-loop、审计与回放、以及面向生产的 AgentOps。

1) 何谓“代理化”：从模块拼装到闭环系统

把 LLM 当成“回答引擎”时，你得到的是一次性输出；把 LLM 放进闭环后，你得到的是一个能够在不确定环境中持续推进的系统。典型的代理架构可拆成五个模块：

感知（Perception）：接收文本、图像、日志、页面状态等多模态输入，并形成当前环境状态表示。
规划（Planning）：把目标分解为可执行子任务，并在执行过程中根据反馈滚动调整。
行动（Action）：通过 API、函数调用、GUI 操作或机器人执行，改变外部世界。
记忆（Memory）：既包含短期工作记忆（上下文管理），也包含长期记忆（检索/写入/压缩）。
反馈（Feedback）：来自环境的观测与评价信号，驱动纠错、重试、或策略更新。

这套分工本身并不新；新的是行业在逼近一个共识：“代理能力”不能只靠外部编排堆起来。当任务跨度变长、环境更动态、行动空间更大时，纯粹的胶水逻辑会变得脆弱——一旦遇到分支、异常、或未覆盖 UI 变化，系统容易崩溃或陷入循环。

因此出现了两种路线的对比：

管道式（pipeline-based）：用外部逻辑管理工具调用、记忆、重试与路由。优点是可控、可调试、上线快；缺点是泛化差、维护成本高。
模型原生（model-native）：把“何时思考、何时检索、何时行动、如何压缩记忆”等策略更多交给模型，通过强化学习与后训练让其内化。

现实里多数团队会处在两者之间：先管道化落地，再逐步把高频策略内化，以降低系统复杂度与运行时分支爆炸。

2) 推理与规划：从提示词到“推理算法栈”

2.1 常见推理模式：让模型在行动前“展开搜索空间”

Chain-of-Thought（CoT）：线性推理链，适合确定性强的问题。
Tree-of-Thought（ToT）：多分支探索 + 回溯，更接近人类解题时的“试探—否定—再来”。
ReAct（Reason + Act）：推理与行动交错（think–act–observe），让环境反馈进入上下文，适合信息不全或需要工具的任务。
Reflexion / Self-Refine：对自身输出进行批判与改写，等价于在“草稿—审稿—再写”中迭代收敛。

关键点在于：这些模式本质上都在把“下一步”从贪心生成变成带搜索的决策。

2.2 把经典搜索算法接到 LLM 上：可控的 test-time compute

2024–2025 的一个强趋势是：用经典搜索在推理时对候选轨迹做系统探索。

MCTS（蒙特卡洛树搜索）：在探索与利用之间平衡，适合把“工作流/代码序列/行动序列”当作可搜索对象。
A* 搜索：当你能定义启发式函数时，可在巨大行动空间里更快逼近目标。
Beam Search：在有限宽度内保留多个候选轨迹，常与检索/知识约束结合。
进化搜索：对方案做选择、变异与保留，适合结构化流程或组合优化。

这些方法把“性能提升”从单纯扩模型，变成了一个新的旋钮：在推理阶段投入更多算力与回合数，换取更高的成功率与更低的幻觉率。工程上真正需要管理的是：成功率曲线、时延、成本与失败模式。

3) 强化学习与“自进化”：为什么模型会出现自我纠错

代理化的长期方向是：模型不仅会回答，还要会“自我检查—发现错误—回滚—修正”。强化学习（RL）是实现这一点的核心机制之一。

以 DeepSeek-R1 路线为代表的一类工作强调：在合适的奖励信号下，推理行为可以在较少监督甚至无监督式的 RL 中涌现，包括：

过程中自我验证（中途发现矛盾）
重新规划（改写步骤或更换解题路径）
对格式与可读性形成稳定策略（例如把思考与结论分离）

但 RL 不是魔法。它依赖三个前提：

可自动化的奖励（例如数学/代码可执行验证）。
可探索的行动空间（否则只能在局部最优打转）。
可控的失败成本（探索意味着会犯错）。

这也是为什么很多“能跑”的 agent，优先落在代码、检索、流程自动化等可验证领域，而不是完全开放的现实世界任务。

4) LAM（Large Action Models）：从“会说”到“会做”

LLM 能描述怎么订机票，但 LAM 试图直接完成订票：识别界面、点击按钮、填写表单、处理弹窗、验证结果。

LAM 的难点不在“能否调用工具”，而在“能否在噪声与变化中保持稳定执行”：

视觉落地（visual grounding）：不要依赖脆弱的 DOM 选择器或固定坐标，而要理解“这是搜索框/这是确认按钮”。
闭环控制：每一步都要检查状态是否符合预期，失败要能诊断原因并选择重试/换路径/升级求助。
权限与合规：行动意味着真实影响（下单、转账、删库），必须有边界、审批与审计。

对企业而言，LAM 的价值通常在“最后一公里自动化”：当系统间没有 API、遗留软件复杂、或流程跨多个 SaaS 时，GUI 级行动比系统集成更快。

5) 多代理系统：把组织结构映射到模型协作

单一 agent 很容易在长任务里“既要做规划又要做执行还要看图”而失焦。多代理系统（MAS）的思路是分工协作，例如：

规划者（Planner）：只负责下一步计划与分解，不做具体点击。
执行者（Executor）：按指令做低层动作并回报观察。
视觉/工具专员：只在需要时介入，降低上下文污染与成本。

这一方向会自然催生两类基础设施：

上下文与协议：如何在多个代理间传递结构化状态、约束与证据（如 MCP 一类协议化思路）。
AgentOps：线上可观测性（轨迹回放、失败聚类、策略漂移检测）、安全策略与评估基线。

如果没有这些“生产系统能力”，多代理只会把调试难度从 1 个黑箱变成 N 个黑箱。

6) 评估与治理：不要只看 demo，要看“环境里的成功率”

代理系统的评估必须从静态指标转向环境指标：

能力维度：规划、工具使用、反思、记忆管理。
应用基准：网页/软件环境（如 WebArena、AlfWorld 等），以及特定行业流程。
成本效率：同等成功率下的 token/时延/调用次数；同等成本下的成功率。
安全性：越权行动、数据泄露、提示注入、奖励作弊（reward hacking）。

落地策略上，“全自动”不是第一目标。更现实的路径是：

先把 agent 放在人类监督的工作流里（审批、抽检、回放）。
用日志把失败类型结构化（信息不足、工具错误、规划失当、循环、权限不足）。
再用后训练/RL/检索策略把高频失败点逐步压下去。

7) 三篇必读论文（为什么值得读）

DeepSeek-R1（强化学习驱动推理）：提供了“推理能力如何被奖励塑形”的直观案例，帮助你把 agent 的改进从“调 prompt”升级为“设计可验证任务 + 奖励 + 搜索”。
AFlow（用 MCTS 自动生成工作流）：把“agent 工作流设计”本身当成搜索问题，提示了一个重要方向：很多时候提升系统的不是更大模型，而是更好的执行策略与流程结构。
Search-o1（推理中按需检索）：把检索调用与推理过程耦合，解决长链推理里“知识缺口导致全盘错误”的常见问题，是做 Deep Research 类 agent 的关键组件。

下一步：给构建者与决策者的 6 条落地建议

把成功率曲线产品化：固定一组任务集，记录成功率—成本—时延三维曲线，避免被单次 demo 误导。
优先选择可验证场景：代码、检索、数据处理、工单流程；先把 RL/自我纠错用起来。
对循环与卡死做“硬防线”：最大步数、超时、异常归因、自动升级给人类。
把记忆当作策略而非存储：什么时候写入、什么时候压缩、什么时候检索——这些都应当可观测、可评估。
在 GUI 行动上建立安全壳：最小权限、敏感动作二次确认、沙盒环境、全量回放。
建设 AgentOps：没有轨迹、指标与回归测试，就无法规模化迭代。

References

A Survey on the Feedback Mechanism of LLM-based AI Agents (IJCAI 2025): https://www.ijcai.org/proceedings/2025/1175.pdf
Generative to Agentic AI: Survey, Conceptualization, and Challenges (arXiv HTML): https://arxiv.org/html/2504.18875v1
Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI (arXiv HTML): https://arxiv.org/html/2510.16720v1
AFLOW: Automating Agentic Workflow Generation (ICLR 2025 PDF): https://proceedings.iclr.cc/paper_files/paper/2025/file/5492ecbce4439401798dcd2c90be94cd-Paper-Conference.pdf
AFlow (OpenReview): https://openreview.net/forum?id=z5uVAKwmjf
Search-o1: Agentic Search-Enhanced Large Reasoning Models (ACL Anthology PDF): https://aclanthology.org/2025.emnlp-main.276.pdf
Search-o1 (arXiv HTML): https://arxiv.org/html/2501.05366v1
DeepSeek-R1 document (The Wire China PDF mirror): https://www.thewirechina.com/wp-content/uploads/2025/01/DeepSeek-R1-Document.pdf
Dynatrace: Pulse of Agentic AI 2026 (press release): https://www.dynatrace.com/news/press-release/pulse-of-agentic-ai-2026/
Large Action Models overview (DigitalOcean): https://www.digitalocean.com/resources/articles/large-action-models