
一个优秀的 Agent 不是一次性设计出来的,而是在持续使用中不断进化的。本文将介绍如何构建验证闭环,让你的 Agent 越用越聪明。
一、什么是验证闭环?
验证闭环(Validation Loop)是指 Agent 执行任务后,通过某种方式验证结果的正确性,并将验证结果反馈到系统中,用于改进未来的表现。完整的闭环包括四个环节:
- 执行:Agent 完成任务
- 验证:检查结果是否正确
- 反馈:将验证结果反馈给系统
- 优化:基于反馈改进 Agent
二、验证的三种方式
1. 自动验证
对于可量化的任务,可以编写自动化测试:
# 示例:代码生成任务的自动验证 - 语法检查:运行编译器/解释器 - 单元测试:执行测试用例 - 结果比对:与预期输出对比
2. 人工验证
对于创意性、主观性任务,需要人工介入:
- 用户对 Agent 输出进行评分(👍/👎)
- 提供文字反馈说明问题
- 标记需要改进的具体内容
3. 对比验证
让多个 Agent 或模型完成同一任务,对比结果:
# 多模型投票机制 - GPT-4 生成答案 A - Claude 生成答案 B - DeepSeek 生成答案 C - 多数表决或一致性检查
三、技能沉淀机制
Hermes Agent 的核心理念是「一次学习、终身复用」。成功的任务经验会被沉淀为 Markdown 技能文件:
# SKILL.md 示例结构 ## 技能名称:Python 数据清洗 ## 适用场景 - 处理缺失值 - 格式标准化 - 重复数据删除 ## 执行步骤 1. 读取数据文件 2. 检测缺失值 3. 选择填充策略 4. 保存清洗后的数据 ## 验证标准 - 缺失值比例低于 1% - 数据类型正确 - 通过单元测试 ## 历史改进记录 - 2026-01-15: 增加了异常值检测 - 2026-02-20: 优化了大文件处理性能
四、记忆管理系统
验证闭环离不开有效的记忆管理。Agent 需要记住:
| 记忆类型 | 存储内容 | 使用场景 |
|---|---|---|
| 短期记忆 | 当前会话的上下文 | 多轮对话保持连贯 |
| 工作记忆 | 任务执行中的中间状态 | 长任务断点续传 |
| 长期记忆 | 用户偏好、历史经验 | 个性化服务 |
| 语义记忆 | 知识库、文档内容 | RAG 检索增强 |
五、实现验证闭环的步骤
Step 1:定义验证标准
为每类任务定义明确的完成标准:
# 代码生成任务 - 语法正确性:无编译错误 - 功能完整性:通过所有测试用例 - 代码质量:符合项目规范 - 性能要求:执行时间 < 1s
Step 2:集成验证工具
在 Harness 中集成验证工具:
# 在 Agent 配置中添加验证步骤
{
"tools": ["code_executor", "test_runner"],
"validation": {
"auto_check": true,
"retry_on_fail": 3,
"escalate_to_human": true
}
}
Step 3:收集反馈数据
建立反馈收集机制:
- 显式反馈:用户评分、文字评论
- 隐式反馈:任务完成时间、重试次数、用户修改行为
- 系统指标:成功率、错误类型分布
Step 4:迭代优化
基于反馈持续改进:
- 更新 Prompt 模板
- 调整工具参数
- 补充训练示例
- 优化上下文策略
六、实战案例:代码审查 Agent 的进化
假设我们有一个代码审查 Agent,看它如何通过验证闭环进化:
| 阶段 | 问题 | 改进措施 | 结果 |
|---|---|---|---|
| V1 | 经常漏掉边界条件检查 | 在 Prompt 中加入边界检查清单 | 漏检率下降 40% |
| V2 | 对项目规范理解不一致 | 引入 AGENTS.md 项目规范文件 | 一致性提升 60% |
| V3 | 复杂逻辑审查不准确 | 增加静态分析工具辅助 | 准确率提升至 85% |
| V4 | 审查速度较慢 | 优化上下文压缩策略 | 速度提升 2x |
七、评估指标设计
建立科学的评估指标体系:
# 核心指标 - 任务成功率(Success Rate) - 首次成功率(First-Try Success) - 平均完成时间(Avg Completion Time) - 用户满意度(CSAT) # 质量指标 - 准确率(Accuracy) - 召回率(Recall) - F1 分数 # 效率指标 - Token 消耗量 - API 调用次数 - 重试次数
八、总结
验证闭环是 Agent 从「能用」走向「好用」的关键。通过自动验证、人工反馈和持续优化,你的 Agent 将不断积累经验和能力,最终成为真正的智能助手。
下一篇文章,我们将探讨更高级的话题——多 Agent 协作系统。
📚 Harness Engineering 入门到实战系列
本系列手把手教你从零开始掌握 Harness Engineering:
