
2026年5月28日,Anthropic正式发布了Claude Opus 4.8,这是其旗舰模型的最新版本。作为Claude系列中最强大的模型,Opus 4.8在编码能力、Agent性能、推理能力和实际知识工作任务上均有显著提升。更重要的是,Anthropic在同一天宣布完成650亿美元H轮融资,估值达到9650亿美元,逼近万亿美金大关。本文将从技术性能、实际应用场景、新功能特性以及行业影响等多个维度,对Claude Opus 4.8进行深度测评。
一、核心性能提升:数据说话
Opus 4.8相比前代Opus 4.7,在多个关键基准测试上实现了 measurable 的改进。以下是详细的性能对比数据:
| 测试项目 | Opus 4.7 | Opus 4.8 | 提升幅度 | 说明 |
|---|---|---|---|---|
| SWE-Bench Pro | 64.3% | 69.2% | +4.9% | Agent编码能力测试 |
| Terminal-Bench 2.1 | 66.1% | 74.6% | +8.5% | 终端编码能力测试 |
| Humanity’s Last Exam | 46.9% | 49.8% | +2.9% | 推理能力综合测试 |
| OSWorld-Verified | 82.3% | 83.4% | +1.1% | 计算机操作能力 |
| Legal Agent Benchmark | 低于10% | 突破10% | 历史首次 | 法律Agent全通过标准 |
| Online-Mind2Web | – | 84% | 领先 | 浏览器Agent能力 |
1.1 编码能力:从优秀到卓越
在编码能力方面,Opus 4.8的提升尤为显著。SWE-Bench Pro测试从64.3%提升至69.2%,这意味着模型在处理真实软件工程任务时的成功率提高了近5个百分点。更值得关注的是Terminal-Bench 2.1的8.5%提升,这表明Opus 4.8在终端环境下的代码理解和执行能力有了质的飞跃。
CursorBench测试显示,Opus 4.8在所有努力级别(effort level)上都超越了前代模型。工具调用效率更高,使用更少的步骤达到相同的智能水平,并且能够更好地完成端到端任务。
1.2 推理能力:稳步前进
Humanity’s Last Exam作为综合性推理测试,Opus 4.8从46.9%提升至49.8%,虽然提升幅度相对温和,但考虑到该测试的难度,这一进步仍然值得关注。这表明Anthropic在模型推理能力上的持续投入正在产生效果。
1.3 Agent能力:全面领先
在Agent能力测试中,Opus 4.8表现突出:
- Super-Agent benchmark:Opus 4.8是唯一能够端到端完成所有测试用例的模型,超越了前代Opus模型和GPT-5.5
- Legal Agent Benchmark:首次突破10%的全通过标准,为法律领域的AI应用打开了新的可能性
- Online-Mind2Web:达到84%,在浏览器Agent能力上实现了对Opus 4.7和GPT-5.5的超越
二、诚实性改进:AI的自我纠错
Opus 4.8最显著的改进之一是其诚实性(Honesty)。Anthropic在训练所有模型时都强调诚实——例如避免做出无法支持的声明。但AI模型普遍存在一个问题:有时会草率下结论,自信地声称自己在工作中取得了进展,尽管证据薄弱。
早期测试者反馈显示,Opus 4.8更有可能标记其工作中的不确定性,更不可能做出无支持的声明。评估数据显示,Opus 4.8允许代码缺陷未被发现通过的可能性比前代降低了约四倍。
这一改进对于实际应用意义重大。在编程、法律、金融等对准确性要求极高的领域,模型能够主动指出不确定性,而不是盲目自信地给出错误答案,这将大大提升AI工具的实用价值。
三、新功能特性详解
3.1 动态工作流(Dynamic Workflows)
这是Claude Code中的一项重磅新功能,目前处于研究预览阶段。动态工作流允许Claude在单个会话中承担更大的任务:
- 任务规划:Claude可以规划工作,然后运行数百个并行子Agent
- 长时间运行:使用Opus 4.8时,Agent可以运行更长时间
- 输出验证:在报告给用户之前验证其输出
实际应用示例:Claude Code配合Opus 4.8现在可以执行代码库规模的重构,跨越数十万行代码,从启动到合并,以现有测试套件作为标准。
该功能目前适用于Claude Code的企业版、团队版和Max计划用户。
3.2 努力程度控制(Effort Control)
claude.ai和Cowork平台新增了一个控制选项,让用户可以选择Claude在响应中投入的努力程度:
- 更高努力设置:Claude会更频繁、更深入地思考,以提供更好的响应
- 较低努力设置:Claude响应更快,消耗用户速率限制更慢
Opus 4.8默认采用高努力模式,Anthropic认为这是质量和用户体验的最佳整体平衡。在编码任务上,这一努力级别消耗的token数量与Opus 4.7默认相当,但性能更好。
用户还可以选择”extra”(在Claude Code中为”xhigh”)或”max”模式,模型将消耗更多token以获得更好的结果。Anthropic建议在困难任务和长时间运行的异步工作流中使用”extra”模式。
3.3 快速模式(Fast Mode)降价
Opus 4.8的快速模式(模型以2.5倍速度工作)现在比前代模型便宜三倍。这为需要快速响应的场景提供了更具性价比的选择。
3.4 Messages API更新
Messages API现在接受messages数组内的system条目。开发者可以在任务进行中更新Claude的指令,而无需破坏提示缓存或将更新路由通过用户回合。这可用于在给定工具中更新权限、token预算或环境上下文。
四、实际应用场景测评
4.1 软件开发
根据多家科技公司的早期测试反馈:
Devin(Cognition Labs):Opus 4.8干净地使用工具,并以自主工程工作负载所需的 consistency 遵循指令。相比Opus 4.6有所改进,并修复了Opus 4.7中看到的评论冗长性和工具调用问题。
Cursor:在CursorBench上,Opus 4.8在每个努力级别上都超越了前代Opus模型。工具调用更有意义地高效,使用更少的步骤获得相同的智能,并且能够完成端到端任务。
Super-Agent:Opus 4.8是唯一能够端到端完成所有测试用例的模型,在成本平价的情况下击败了前代Opus模型和GPT-5.5。
4.2 法律领域
CoCounsel Legal:Opus 4.8在法律Agent基准测试中达到了最高分,并且是第一个在全通过标准上突破10%的模型。对于实质性法律工作,这种准确性提升直接转化为客户可以放心委托给AI的实际律师工作量。
Hebbia:对于Hebbia编排器中的金融文档工作流,Opus 4.8提供与Opus 4.7相同的强大质量,但引用精度明显更好,检索时的token效率更高。
4.3 数据分析
Databricks(Genie):Opus 4.8解锁了Agent推理的阶梯式变化,比任何前代Opus更快地处理更深入的多步骤问题。其多模态优势还让Genie能够直接对PDF、图表和其他非结构化内容进行推理,token成本比Opus 4.7降低61%。
金融分析:在长期运行的评估中,Opus 4.8的分析质量始终高于前代Opus模型。它完成得更快,产生更丰富、信息更密集的输出。最大的区别是Opus 4.8倾向于主动标记分析的输入和输出问题,这是其他模型经常遗漏的。
4.4 内容创作
早期测试者反馈,Opus 4.8在创意写作和技术文档编写方面表现出色:
- 更好地保持跨长会话的上下文和风格方向
- 在声音、品味和技术执行需要同时发生的任务中表现可靠
- 更快地完成分析,产生更丰富的输出
五、定价与可用性
5.1 标准定价
Opus 4.8的常规使用定价与Opus 4.7保持不变:
- 输入token:5美元/百万
- 输出token:25美元/百万
5.2 快速模式定价
快速模式定价大幅下降:
- 输入token:10美元/百万
- 输出token:50美元/百万
- 速度:2.5倍于标准模式
相比前代,快速模式成本降低三倍,为需要快速响应的场景提供了更好的性价比。
5.3 可用平台
Opus 4.8已在所有平台上线:
- claude.ai网页端
- Claude Code
- Anthropic API(模型名称:claude-opus-4-8)
- Cowork
六、与竞品的对比
6.1 与GPT-5.5的对比
| 维度 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|
| SWE-Bench Pro | 69.2% | 约65% |
| Terminal-Bench 2.1 | 74.6% | 83.4%(使用Codex CLI) |
| Super-Agent | 完成所有用例 | 未完成所有用例 |
| Legal Agent | 突破10% | 低于10% |
| 浏览器Agent | 84% | 约80% |
| 定价(输入/输出) | $5/$25 | 类似区间 |
总体来看,Opus 4.8在大多数Agent和编码任务上领先GPT-5.5,但在纯终端编码任务上,GPT-5.5配合Codex CLI仍有一定优势。
6.2 与国产模型的对比
相比DeepSeek V4和Qwen 3.7-Max等国产旗舰模型,Opus 4.8在以下方面保持领先:
- Agent能力:在复杂的端到端任务上表现更稳定
- 多模态理解:对PDF、图表等非结构化内容的理解更深入
- 诚实性:主动标记不确定性的能力更强
但国产模型在成本和中文场景优化上仍有优势,实际选择需根据具体需求权衡。
七、未来展望
7.1 短期计划
Anthropic表示,Opus 4.8是对前代的适度但切实的改进。公司正在开发能够以更低成本提供许多与Opus相同能力的模型。
7.2 Mythos级模型
作为Project Glasswing的一部分,Anthropic计划发布一类比Opus更智能的新模型。目前,少数组织正在使用Claude Mythos Preview进行网络安全工作。这类能力水平的模型需要更强的网络安全保障措施才能正式发布。Anthropic表示正在迅速推进这些保障措施的开发,预计在未来几周内将所有客户带来Mythos级模型。
八、总结与建议
8.1 核心优势
- Agent能力全面领先:在多个Agent基准测试中表现最佳
- 诚实性显著提升:错误率降低四倍,更适合高风险场景
- 新功能实用:动态工作流、努力程度控制提升了使用灵活性
- 性价比改善:快速模式降价三倍,降低了使用门槛
8.2 适用场景
强烈推荐使用:
- 复杂的软件工程任务
- 法律、金融等专业领域分析
- 需要高准确性的多步骤Agent任务
- 大规模代码库重构
可考虑其他选项:
- 纯终端编码任务(GPT-5.5+Codex CLI可能更快)
- 成本敏感的中文场景(国产模型可能更划算)
- 简单的问答任务(使用更便宜的模型即可)
8.3 总体评价
Claude Opus 4.8是一次稳健而非革命性的升级。它在保持前代优势的基础上,在Agent能力、诚实性和实用性方面实现了可测量的改进。对于已经使用Opus 4.7的用户,升级到4.8几乎没有任何成本障碍(定价相同),且能获得明显的性能提升。
对于正在考虑选择旗舰AI模型的企业用户,Opus 4.8在Agent能力和专业领域应用上的优势使其成为一个强有力的候选。但需要注意的是,随着GPT-5.5和国产模型的快速迭代,这一领先优势可能会在短期内被缩小。
