构建验证闭环：让 Agent 越用越聪明

一个优秀的 Agent 不是一次性设计出来的，而是在持续使用中不断进化的。本文将介绍如何构建验证闭环，让你的 Agent 越用越聪明。

一、什么是验证闭环？

验证闭环（Validation Loop）是指 Agent 执行任务后，通过某种方式验证结果的正确性，并将验证结果反馈到系统中，用于改进未来的表现。完整的闭环包括四个环节：

执行：Agent 完成任务
验证：检查结果是否正确
反馈：将验证结果反馈给系统
优化：基于反馈改进 Agent

二、验证的三种方式

1. 自动验证

对于可量化的任务，可以编写自动化测试：

# 示例：代码生成任务的自动验证
- 语法检查：运行编译器/解释器
- 单元测试：执行测试用例
- 结果比对：与预期输出对比

2. 人工验证

对于创意性、主观性任务，需要人工介入：

用户对 Agent 输出进行评分（👍/👎）
提供文字反馈说明问题
标记需要改进的具体内容

3. 对比验证

让多个 Agent 或模型完成同一任务，对比结果：

# 多模型投票机制
- GPT-4 生成答案 A
- Claude 生成答案 B  
- DeepSeek 生成答案 C
- 多数表决或一致性检查

三、技能沉淀机制

Hermes Agent 的核心理念是「一次学习、终身复用」。成功的任务经验会被沉淀为 Markdown 技能文件：

# SKILL.md 示例结构
## 技能名称：Python 数据清洗

## 适用场景
- 处理缺失值
- 格式标准化
- 重复数据删除

## 执行步骤
1. 读取数据文件
2. 检测缺失值
3. 选择填充策略
4. 保存清洗后的数据

## 验证标准
- 缺失值比例低于 1%
- 数据类型正确
- 通过单元测试

## 历史改进记录
- 2026-01-15: 增加了异常值检测
- 2026-02-20: 优化了大文件处理性能

四、记忆管理系统

验证闭环离不开有效的记忆管理。Agent 需要记住：

记忆类型	存储内容	使用场景
短期记忆	当前会话的上下文	多轮对话保持连贯
工作记忆	任务执行中的中间状态	长任务断点续传
长期记忆	用户偏好、历史经验	个性化服务
语义记忆	知识库、文档内容	RAG 检索增强

五、实现验证闭环的步骤

Step 1：定义验证标准

为每类任务定义明确的完成标准：

# 代码生成任务
- 语法正确性：无编译错误
- 功能完整性：通过所有测试用例
- 代码质量：符合项目规范
- 性能要求：执行时间 < 1s

Step 2：集成验证工具

在 Harness 中集成验证工具：

# 在 Agent 配置中添加验证步骤
{
  "tools": ["code_executor", "test_runner"],
  "validation": {
    "auto_check": true,
    "retry_on_fail": 3,
    "escalate_to_human": true
  }
}

Step 3：收集反馈数据

建立反馈收集机制：

显式反馈：用户评分、文字评论
隐式反馈：任务完成时间、重试次数、用户修改行为
系统指标：成功率、错误类型分布

Step 4：迭代优化

基于反馈持续改进：

更新 Prompt 模板
调整工具参数
补充训练示例
优化上下文策略

六、实战案例：代码审查 Agent 的进化

假设我们有一个代码审查 Agent，看它如何通过验证闭环进化：

阶段	问题	改进措施	结果
V1	经常漏掉边界条件检查	在 Prompt 中加入边界检查清单	漏检率下降 40%
V2	对项目规范理解不一致	引入 AGENTS.md 项目规范文件	一致性提升 60%
V3	复杂逻辑审查不准确	增加静态分析工具辅助	准确率提升至 85%
V4	审查速度较慢	优化上下文压缩策略	速度提升 2x

七、评估指标设计

建立科学的评估指标体系：

# 核心指标
- 任务成功率（Success Rate）
- 首次成功率（First-Try Success）
- 平均完成时间（Avg Completion Time）
- 用户满意度（CSAT）

# 质量指标
- 准确率（Accuracy）
- 召回率（Recall）
- F1 分数

# 效率指标
- Token 消耗量
- API 调用次数
- 重试次数

八、总结

验证闭环是 Agent 从「能用」走向「好用」的关键。通过自动验证、人工反馈和持续优化，你的 Agent 将不断积累经验和能力，最终成为真正的智能助手。

下一篇文章，我们将探讨更高级的话题——多 Agent 协作系统。

📚 Harness Engineering 入门到实战系列

本系列手把手教你从零开始掌握 Harness Engineering：

无矩AI

构建验证闭环：让 Agent 越用越聪明

💜 火山引擎 · 专属邀请

一、什么是验证闭环？

二、验证的三种方式

1. 自动验证

2. 人工验证

3. 对比验证

三、技能沉淀机制

四、记忆管理系统

五、实现验证闭环的步骤

Step 1：定义验证标准

Step 2：集成验证工具

Step 3：收集反馈数据

Step 4：迭代优化

六、实战案例：代码审查 Agent 的进化

七、评估指标设计

八、总结

📚 Harness Engineering 入门到实战系列

作者: ncomer

🤖 阿里云 · 大模型 AI 套餐

发表回复取消回复

联系我们

微信扫一扫关注我们

💜 火山引擎 · 专属邀请

一、什么是验证闭环？

二、验证的三种方式

1. 自动验证

2. 人工验证

3. 对比验证

三、技能沉淀机制

四、记忆管理系统

五、实现验证闭环的步骤

Step 1：定义验证标准

Step 2：集成验证工具

Step 3：收集反馈数据

Step 4：迭代优化

六、实战案例：代码审查 Agent 的进化

七、评估指标设计

八、总结

📚 Harness Engineering 入门到实战系列

作者: ncomer

🤖 阿里云 · 大模型 AI 套餐

相关文章

TRAE Work + WorkBuddy + QoderWork 实战指南：构建你的AI工作流流水线

Agent API的技术架构与四大落地挑战（Agent API系列·三）

从SaaS到Agent API：软件产业的历史镜像（Agent API系列·二）

过程暴露陷阱：AI开发者为什么赚不到钱（Agent API系列·一）

Google A2A协议深度解析：Agent互操作的技术标准，AI基础设施的TCP/IP时刻

AI Agent 2026全面解读：从技术架构到六大落地场景

发表回复 取消回复

联系我们

微信扫一扫关注我们

发表回复取消回复