Loop Engineering 深度解析：从写Prompt到设计循环，AI编程的范式革命

一、起源：一条推文引爆AI圈

2026年6月7日，OpenClaw（GitHub历史上涨星最快的开源Agent项目）创始人 Peter Steinberger 在X上发了一条推文，只有两句话：

“You shouldn’t be prompting coding agents anymore. You should be designing loops that prompt your agents.” — Peter Steinberger, 2026年6月7日

24小时内，这条推文获得了 800万次浏览。紧接着，Anthropic负责Claude Code的 Boris Cherny 在一个播客中说了一段同样震撼的话：

“I don’t prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops.” — Boris Cherny, Anthropic Claude Code 负责人

这段演讲片段被上传到X后，不到24小时获得近70万次播放。

随后，Google Chrome工程负责人、Google Cloud AI总监 Addy Osmani 发表了一篇系统性长文，正式将这个概念命名为 Loop Engineering（循环工程），并系统拆解了它的五大构建模块。

三个不同公司的顶级从业者，在同一周得出几乎一样的结论——这绝非巧合。AI编程的范式正在发生根本性的转变。

二、什么是Loop Engineering

Addy Osmani给出了精确的定义：

Loop engineering is replacing yourself as the person who prompts the agent. You design the system that does it instead. — Addy Osmani, Google

翻译过来就是：循环工程就是用你自己设计的系统，取代你作为”给Agent写提示词的人”的角色。

在过去两年中，使用AI编程的方式很简单——你写一个好的Prompt，喂入足够的上下文，读返回结果，再输入下一条指令。Agent是工具，你是全程握着它的人。

Loop Engineering要改变的就是这个模式。现在，你构建一个小系统，这个系统会自动发现工作、分配任务、检查结果、记录进度、决定下一步做什么——然后让这个系统去驱动Agent，而不是你亲自去驱动。

从”驾驶员”到”设计师”

旧模式：Prompt Engineering

你发一个指令，AI执行一段；你看看结果，不满意再换个说法。你的注意力全程在线，你就是那个驾驶员。

瓶颈：人类注意力有限，AI执行能力无限。当模型输出速度远超人类处理速度时，人成了整个流程的瓶颈。

新模式：Loop Engineering

你设计一个循环流程，它会自动地、一遍又一遍地去问AI：”目标是什么？进展到哪一步了？下一步该干嘛？”你只需要在开始时定义好目标，在结束后接收结果。

本质：从”每一次交互的参与者”转变为”循环系统的设计者”。

它和Cron Job有什么区别？

很多人第一反应是”这不就是定时任务吗？”但关键区别在于决策点。

传统的Cron Job执行的是死板的脚本——如果A网站改版了，脚本就挂了，只知道报错。而一个设计良好的Loop，它的每一步执行什么、怎么执行，都是由模型根据当前状态实时决定的。它不是在执行固定脚本，它是在”思考”然后”行动”。

三、为什么是现在

任何技术趋势的爆发都不是空穴来风。Loop Engineering的成熟需要三个条件同时具备：

上下文窗口够大了

现在有些模型的上下文能达到百万token级别，可以一次性”看”完一个中小型项目的代码库，或者记住很长一段任务历史。这是它能理解复杂任务、进行多步工作的基础。

推理成本下来了

让AI模型多跑几轮、多想几次，是要烧钱的。但现在API调用成本持续下降，多跑几轮从”奢侈消费”变成了”可接受的运营成本”。

编程Agent本身能用了

模型变聪明了，能处理的编程任务更复杂了，能从自己的错误中学习恢复了。当单次AI执行就能干很多活的时候，瓶颈就从”怎么写好Prompt”转移到了”怎么设计让AI持续高效工作的系统”。

AI工程的四次跃迁

2024年

Prompt Engineering — 怎么写出更好的提示词，让模型一次输出高质量结果。

2025年

Context Engineering — 怎么组织上下文（代码库、文档、规范），让模型理解项目全貌。

2025年末

Harness Engineering — 怎么构建Agent运行环境（工具、权限、沙箱），让模型能真正执行操作。

2026年6月

Loop Engineering — 怎么设计自动化循环系统，让Agent自主运转、自我迭代，人从操作者变为设计者。

四、五大构建模块

Addy Osmani指出，一个完整的Loop需要五个核心部件，加上一个记忆系统。Claude Code和OpenAI Codex都已经实现了这全部五个模块。

模块	在Loop中的职责	Claude Code	Codex
Automations（自动化）	心跳机制：定时发现和分诊任务	Scheduled tasks、`/loop`、`/goal`、hooks、GitHub Actions	Automations tab、Triage inbox、`/goal`
Worktrees（工作树）	隔离机制：并行Agent互不干扰	`git worktree`、`--worktree`、subagent isolation	内置worktree支持
Skills（技能）	知识机制：项目规范和约定的编码	`SKILL.md` 文件	`SKILL.md` 文件
Plugins/Connectors（插件/连接器）	连接机制：接入真实工具和环境	MCP servers + plugins	Connectors (MCP) + plugins
Sub-agents（子Agent）	分离机制：实现者与检查者分离	`.claude/agents/`、agent teams	`.codex/agents/` (TOML配置)
State/Memory（状态/记忆）	记忆机制：跨会话持久化进度	Markdown (`AGENTS.md`) 或 Linear (MCP)	Markdown 或 Linear (connector)

1. Automations — 心跳机制

Automations是让Loop真正成为”循环”而非”一次性运行”的关键。它定义了任务的调度方式：是每天定时运行，还是某个事件触发时启动？

两个原语特别重要：/loop 按固定频率重复运行；/goal 持续运行直到你写的条件为真——而且每轮结束后，由一个独立的小模型来判断是否完成，写代码的Agent不能给自己的作业打分。

2. Worktrees — 隔离机制

两个Agent同时改同一个文件，是灾难的开始。Git Worktree为每个Agent提供独立的、互不干扰的工作目录，共享同一个仓库历史。一个Agent的修改物理上不可能触碰另一个Agent的文件。

3. Skills — 知识机制

Skills是解决”每次都要重新解释项目”问题的方案。它是一个 SKILL.md 文件，里面写着项目的构建步骤、代码规范、常见陷阱——Agent每次启动时先读这个文件，就像新员工入职先读手册一样。

没有Skills，Loop每轮都要从零推导你的项目；有了Skills，知识会在循环中复利式积累。

4. Plugins & Connectors — 连接机制

一个只能看文件系统的Agent是极其有限的。Connectors（基于MCP协议）让Agent能读写Issue Tracker、查询数据库、调用Staging API、在Slack中发消息。这是让Loop从”告诉你它想做什么”变成 “自己动手做完并通知你” 的关键。

5. Sub-agents — 分离机制

Loop中最有价值的结构设计：让写代码的Agent和检查代码的Agent是不同的”人”。写代码的模型太容易给自己的作业打高分了。第二个Agent用不同的指令（有时用更强的模型）来审查，能抓住第一个Agent”说服自己”的那些问题。

6. State/Memory — 记忆机制

模型的上下文窗口是有限的，聊着聊着就忘了前面。记忆系统（一个Markdown文件或Linear看板）把关键进度、状态、犯过的错记录在外部存储中。每次循环开始，Agent先读取状态文件，知道自己从哪来、到哪去。Agent会忘记，仓库不会。

五、四种核心循环模式

不同的任务类型适合不同的循环架构。以下是2026年工业界最常见的四种模式：

1. Retry Loop（重试循环）

最简单的模式。Agent尝试做一件事，检查是否成功，不成功就换种方式重试。

适用：短任务，有明确的通过/失败标准。如”让所有测试通过”。

注意：避免用同一种方式无限重试。如果连续失败，需要换策略。

2. Plan-Execute-Verify（计划-执行-验证）

双层架构：外循环生成高层计划，内循环逐步执行并验证。如果某步失败，外循环根据新状态动态修订后续计划。

适用：多步骤复杂任务，如重构模块、搭建新服务。

注意：避免对错误计划过度坚持——发现计划有误时，要敢于重规划。

3. Explore-Narrow（探索-收敛）

Agent同时探索多条解决路径，根据中间结果收敛到最有希望的一条。

适用：调试未知错误、探索陌生API、性能优化。

注意：并行探索很烧Token，需要尽早剪枝。

4. Human-in-the-Loop（人机协同）

Agent自主运行，遇到歧义或需要决策时暂停，等人输入后继续。

适用：需求无法完全预先指定的任务，生产环境变更。

注意：如果Agent每个小决策都来问人，就失去了自动化的意义。

双层循环架构详解

在复杂任务中，平铺的ReAct循环暴露了根本缺陷：每一步都是局部最优决策，缺乏全局视野。Plan-Execute双层循环是目前工业界处理复杂任务的主流方案：

外循环（Planner）：LLM生成高层计划（步骤列表，带依赖关系）。Planner不参与执行，仅负责战略。
内循环（Executor）：逐步执行，每步后将结果反馈给外循环。若某步失败，外循环根据新状态动态修订剩余计划。

这本质上是Plan-and-Solve的增强版，加上ReWOO的核心思想——把观测（Observation）与推理（Reasoning）脱钩，避免上下文被中间结果污染。社区报告数据显示，双层循环能将无效工具调用减少40-60%，复杂多步任务的成功率提升约25%。

六、一个完整的Loop长什么样

把五大模块拼在一起，一个典型的生产级Loop是这样的：

每日CI自动修复Loop

触发：每天早上6点，Automation自动启动。

发现：调用Triage Skill，读取昨天的CI失败日志、未关闭的Issue、最近的Commit，将发现写入Markdown状态文件。

执行：对每个值得修复的问题，打开一个隔离的Worktree，派遣一个Sub-agent去起草修复方案。

验证：第二个Sub-agent（使用更强的模型）审查修复方案，对照项目Skills和现有测试进行验证。

闭环：通过Connectors自动创建PR、更新Linear工单、在Slack频道通知团队。Loop处理不了的问题进入Triage收件箱，等待人工处理。

记忆：状态文件记录了什么被尝试过、什么通过了、什么还开着——明天早上的运行会从今天停下的地方继续。

注意你实际做了什么：你设计了一次，之后再也不需要手动Prompt任何步骤。这就是Steinberger所说的核心观点，而且同样的Loop在Claude Code和Codex中都能运行，因为五大模块是通用的。

七、风险与陷阱

Loop Engineering不是银弹。Addy Osmani本人也强调了对Token成本的谨慎态度，并指出了三个随着Loop变好反而更尖锐的问题。

风险1：Token烧钱黑洞

Reddit上有开发者晒账单，一晚上Loop自动运行，几百美元的Token费就没了。对于个人开发者或小团队，一定要设置硬性的预算上限，初期建议手动触发，别轻易无人值守运行。

风险2：理解债务（Comprehension Debt）

代码被Loop自动生成、自动合并，但没有人真正读过它、理解它。短期内效率飞起，但长期来看，你对系统如何工作积累了大量的”不理解”。有报告显示，随着AI采用率提高，开发者人均bug数上升了54%，近三分之一的代码是无人审查就进入生产环境的。

风险3：认知投降（Cognitive Surrender）

当Loop跑得太顺，你会越来越依赖它，越来越不愿意深入理解代码细节。Addy Osmani称之为”认知投降”——同样的动作（设计Loop），如果你带着判断力去做，它是解药；如果你用它来逃避思考，它就是加速剂。

风险4：目标模糊是致命的

Loop适合处理”目标清晰、可验证”的任务。如果你想用它来”优化用户体验”或”提升代码质量”，大概率会翻车。AI不知道”更好”是什么标准，它可能会在模糊指令下无休止地运行。

适合上Loop的任务

重复性高：每天、每周都要做的
规则明确：输入、输出、成功标准都很清楚
有可靠的验证方式：最好能用自动化测试、类型检查、编译来验证结果

最好别碰的任务

探索性、创造性强的：产品早期原型、艺术创作、战略构思
目标极其模糊的：”优化用户体验”、”提升代码质量”
后果严重且难以回滚的：核心金融系统、关键基础设施的改动

八、落地指南：如何开始你的第一个Loop

黄金法则：从最小、最安全的Loop开始

先找一个痛点最明显的重复性任务，设计一个简单的循环，加上最严格的预算限制和人工审核环节，小范围跑起来。看看效果，踩踩坑，积累经验。不要一上来就搞全自动、无人化的复杂流程。

第一步：定义清晰的目标

在写任何Loop逻辑之前，先写下”完成”长什么样。”所有测试通过且无lint错误”是终止条件；”代码看起来不错”不是。同时定义失败条件：”10次迭代无进展，升级为人工审查”。

第二步：编写SKILL.md

把你的项目规范、构建步骤、代码风格、”我们不用这种方式因为上次出了事故”——全部写进SKILL.md。这是Loop的知识基础，写一次，每次循环都受益。

第三步：配置验证子Agent

创建一个专门的审查Agent配置，用更强的模型、更严格的指令。确保”写代码的人”和”检查代码的人”不是同一个Agent。这是你能放心让Loop无人运行的前提。

第四步：设置状态文件

创建一个Markdown文件作为Loop的”记忆”。每次循环开始时读取，结束时更新。内容包括：已完成的步骤、当前状态、遇到的问题、下一步计划。

第五步：设置预算上限

无论是Token预算还是迭代次数上限，一定要有硬性限制。初期建议：

最大迭代次数：10-20轮
每次迭代的工具调用预算：5-10次
总Token预算：根据你的承受能力设定
人工审核：初期每个PR都要人工review

30天 rollout 路线图

阶段	时间	目标
第1周	Day 1-7	写第一个 `/goal`，让Agent自动修复一个已知Bug。观察它怎么工作，记录问题。
第2周	Day 8-14	编写SKILL.md，配置验证子Agent。让Loop处理”让所有测试通过”类任务。
第3周	Day 15-21	设置第一个Automation，每天自动分诊CI失败。开始积累状态文件。
第4周	Day 22-30	评估效果，优化Loop配置。逐步放宽人工审核频率，建立信任。

九、未来展望

Loop Engineering标志着AI应用从”手工作坊”进入”小工厂”时代的转折点。我们不再是亲自抡大锤的工匠，而是开始设计机床和流水线的工程师。

但正如Addy Osmani所说：

“Build the loop. But build it like someone who intends to stay the engineer, not just the person who presses go.” — Addy Osmani, Google

设计Loop是更难的Prompt Engineering，不是更容易的。Cherny的观点不是说工作变简单了，而是说杠杆点移动了——从”怎么写好一条Prompt”变成了”怎么设计一个让AI持续高效工作的系统”。

Loop不会删除你的工作，它会改变你的工作。验证仍然在你，理解仍然需要你，判断力永远不可替代。但如果你能聪明地使用它——它能把你的精力从重复劳动中解放出来，聚焦在真正有创造性的工作上。

写在最后

Loop Engineering不是魔法，不是银弹，更不是让你变懒的借口。它是一个强大但需要精心驾驭的工具。用得好，它是解放；用不好，它可能给你埋下意想不到的巨坑。

在这个AI快速迭代的时代，保持独立思考和清醒判断，可能比掌握任何一个新名词都重要。