Claude Opus 4.8深度测评：Agent能力全面领先，诚实性提升四倍，9650亿估值的底气

2026年5月28日，Anthropic正式发布了Claude Opus 4.8，这是其旗舰模型的最新版本。作为Claude系列中最强大的模型，Opus 4.8在编码能力、Agent性能、推理能力和实际知识工作任务上均有显著提升。更重要的是，Anthropic在同一天宣布完成650亿美元H轮融资，估值达到9650亿美元，逼近万亿美金大关。本文将从技术性能、实际应用场景、新功能特性以及行业影响等多个维度，对Claude Opus 4.8进行深度测评。

延伸阅读：Claude Opus 4.8刚发布就翻车：追问身份时自…、保姆级 Skill 写作指南：手把手教你为 Claude…、Claude Code国内安装：2026最新保姆教程（附…

一、核心性能提升：数据说话

Opus 4.8相比前代Opus 4.7，在多个关键基准测试上实现了 measurable 的改进。以下是详细的性能对比数据：

测试项目	Opus 4.7	Opus 4.8	提升幅度	说明
SWE-Bench Pro	64.3%	69.2%	+4.9%	Agent编码能力测试
Terminal-Bench 2.1	66.1%	74.6%	+8.5%	终端编码能力测试
Humanity’s Last Exam	46.9%	49.8%	+2.9%	推理能力综合测试
OSWorld-Verified	82.3%	83.4%	+1.1%	计算机操作能力
Legal Agent Benchmark	低于10%	突破10%	历史首次	法律Agent全通过标准
Online-Mind2Web	–	84%	领先	浏览器Agent能力

1.1 编码能力：从优秀到卓越

在编码能力方面，Opus 4.8的提升尤为显著。SWE-Bench Pro测试从64.3%提升至69.2%，这意味着模型在处理真实软件工程任务时的成功率提高了近5个百分点。更值得关注的是Terminal-Bench 2.1的8.5%提升，这表明Opus 4.8在终端环境下的代码理解和执行能力有了质的飞跃。

CursorBench测试显示，Opus 4.8在所有努力级别（effort level）上都超越了前代模型。工具调用效率更高，使用更少的步骤达到相同的智能水平，并且能够更好地完成端到端任务。

1.2 推理能力：稳步前进

Humanity’s Last Exam作为综合性推理测试，Opus 4.8从46.9%提升至49.8%，虽然提升幅度相对温和，但考虑到该测试的难度，这一进步仍然值得关注。这表明Anthropic在模型推理能力上的持续投入正在产生效果。

1.3 Agent能力：全面领先

在Agent能力测试中，Opus 4.8表现突出：

Super-Agent benchmark：Opus 4.8是唯一能够端到端完成所有测试用例的模型，超越了前代Opus模型和GPT-5.5
Legal Agent Benchmark：首次突破10%的全通过标准，为法律领域的AI应用打开了新的可能性
Online-Mind2Web：达到84%，在浏览器Agent能力上实现了对Opus 4.7和GPT-5.5的超越

二、诚实性改进：AI的自我纠错

Opus 4.8最显著的改进之一是其诚实性（Honesty）。Anthropic在训练所有模型时都强调诚实——例如避免做出无法支持的声明。但AI模型普遍存在一个问题：有时会草率下结论，自信地声称自己在工作中取得了进展，尽管证据薄弱。

早期测试者反馈显示，Opus 4.8更有可能标记其工作中的不确定性，更不可能做出无支持的声明。评估数据显示，Opus 4.8允许代码缺陷未被发现通过的可能性比前代降低了约四倍。

这一改进对于实际应用意义重大。在编程、法律、金融等对准确性要求极高的领域，模型能够主动指出不确定性，而不是盲目自信地给出错误答案，这将大大提升AI工具的实用价值。

三、新功能特性详解

3.1 动态工作流（Dynamic Workflows）

这是Claude Code中的一项重磅新功能，目前处于研究预览阶段。动态工作流允许Claude在单个会话中承担更大的任务：

任务规划：Claude可以规划工作，然后运行数百个并行子Agent
长时间运行：使用Opus 4.8时，Agent可以运行更长时间
输出验证：在报告给用户之前验证其输出

实际应用示例：Claude Code配合Opus 4.8现在可以执行代码库规模的重构，跨越数十万行代码，从启动到合并，以现有测试套件作为标准。

该功能目前适用于Claude Code的企业版、团队版和Max计划用户。

3.2 努力程度控制（Effort Control）

claude.ai和Cowork平台新增了一个控制选项，让用户可以选择Claude在响应中投入的努力程度：

更高努力设置：Claude会更频繁、更深入地思考，以提供更好的响应
较低努力设置：Claude响应更快，消耗用户速率限制更慢

Opus 4.8默认采用高努力模式，Anthropic认为这是质量和用户体验的最佳整体平衡。在编码任务上，这一努力级别消耗的token数量与Opus 4.7默认相当，但性能更好。

用户还可以选择”extra”（在Claude Code中为”xhigh”）或”max”模式，模型将消耗更多token以获得更好的结果。Anthropic建议在困难任务和长时间运行的异步工作流中使用”extra”模式。

3.3 快速模式（Fast Mode）降价

Opus 4.8的快速模式（模型以2.5倍速度工作）现在比前代模型便宜三倍。这为需要快速响应的场景提供了更具性价比的选择。

3.4 Messages API更新

Messages API现在接受messages数组内的system条目。开发者可以在任务进行中更新Claude的指令，而无需破坏提示缓存或将更新路由通过用户回合。这可用于在给定工具中更新权限、token预算或环境上下文。

四、实际应用场景测评

4.1 软件开发

根据多家科技公司的早期测试反馈：

Devin（Cognition Labs）：Opus 4.8干净地使用工具，并以自主工程工作负载所需的 consistency 遵循指令。相比Opus 4.6有所改进，并修复了Opus 4.7中看到的评论冗长性和工具调用问题。

Cursor：在CursorBench上，Opus 4.8在每个努力级别上都超越了前代Opus模型。工具调用更有意义地高效，使用更少的步骤获得相同的智能，并且能够完成端到端任务。

Super-Agent：Opus 4.8是唯一能够端到端完成所有测试用例的模型，在成本平价的情况下击败了前代Opus模型和GPT-5.5。

4.2 法律领域

CoCounsel Legal：Opus 4.8在法律Agent基准测试中达到了最高分，并且是第一个在全通过标准上突破10%的模型。对于实质性法律工作，这种准确性提升直接转化为客户可以放心委托给AI的实际律师工作量。

Hebbia：对于Hebbia编排器中的金融文档工作流，Opus 4.8提供与Opus 4.7相同的强大质量，但引用精度明显更好，检索时的token效率更高。

4.3 数据分析

Databricks（Genie）：Opus 4.8解锁了Agent推理的阶梯式变化，比任何前代Opus更快地处理更深入的多步骤问题。其多模态优势还让Genie能够直接对PDF、图表和其他非结构化内容进行推理，token成本比Opus 4.7降低61%。

金融分析：在长期运行的评估中，Opus 4.8的分析质量始终高于前代Opus模型。它完成得更快，产生更丰富、信息更密集的输出。最大的区别是Opus 4.8倾向于主动标记分析的输入和输出问题，这是其他模型经常遗漏的。

4.4 内容创作

早期测试者反馈，Opus 4.8在创意写作和技术文档编写方面表现出色：

更好地保持跨长会话的上下文和风格方向
在声音、品味和技术执行需要同时发生的任务中表现可靠
更快地完成分析，产生更丰富的输出

五、定价与可用性

5.1 标准定价

Opus 4.8的常规使用定价与Opus 4.7保持不变：

输入token：5美元/百万
输出token：25美元/百万

5.2 快速模式定价

快速模式定价大幅下降：

输入token：10美元/百万
输出token：50美元/百万
速度：2.5倍于标准模式

相比前代，快速模式成本降低三倍，为需要快速响应的场景提供了更好的性价比。

5.3 可用平台

Opus 4.8已在所有平台上线：

claude.ai网页端
Claude Code
Anthropic API（模型名称：claude-opus-4-8）
Cowork

六、与竞品的对比

6.1 与GPT-5.5的对比

维度	Claude Opus 4.8	GPT-5.5
SWE-Bench Pro	69.2%	约65%
Terminal-Bench 2.1	74.6%	83.4%（使用Codex CLI）
Super-Agent	完成所有用例	未完成所有用例
Legal Agent	突破10%	低于10%
浏览器Agent	84%	约80%
定价（输入/输出）	$5/$25	类似区间

总体来看，Opus 4.8在大多数Agent和编码任务上领先GPT-5.5，但在纯终端编码任务上，GPT-5.5配合Codex CLI仍有一定优势。

6.2 与国产模型的对比

相比DeepSeek V4和Qwen 3.7-Max等国产旗舰模型，Opus 4.8在以下方面保持领先：

Agent能力：在复杂的端到端任务上表现更稳定
多模态理解：对PDF、图表等非结构化内容的理解更深入
诚实性：主动标记不确定性的能力更强

但国产模型在成本和中文场景优化上仍有优势，实际选择需根据具体需求权衡。

七、未来展望

7.1 短期计划

Anthropic表示，Opus 4.8是对前代的适度但切实的改进。公司正在开发能够以更低成本提供许多与Opus相同能力的模型。

7.2 Mythos级模型

作为Project Glasswing的一部分，Anthropic计划发布一类比Opus更智能的新模型。目前，少数组织正在使用Claude Mythos Preview进行网络安全工作。这类能力水平的模型需要更强的网络安全保障措施才能正式发布。Anthropic表示正在迅速推进这些保障措施的开发，预计在未来几周内将所有客户带来Mythos级模型。

八、总结与建议

8.1 核心优势

Agent能力全面领先：在多个Agent基准测试中表现最佳
诚实性显著提升：错误率降低四倍，更适合高风险场景
新功能实用：动态工作流、努力程度控制提升了使用灵活性
性价比改善：快速模式降价三倍，降低了使用门槛

8.2 适用场景

强烈推荐使用：

复杂的软件工程任务
法律、金融等专业领域分析
需要高准确性的多步骤Agent任务
大规模代码库重构

可考虑其他选项：

纯终端编码任务（GPT-5.5+Codex CLI可能更快）
成本敏感的中文场景（国产模型可能更划算）
简单的问答任务（使用更便宜的模型即可）

8.3 总体评价

Claude Opus 4.8是一次稳健而非革命性的升级。它在保持前代优势的基础上，在Agent能力、诚实性和实用性方面实现了可测量的改进。对于已经使用Opus 4.7的用户，升级到4.8几乎没有任何成本障碍（定价相同），且能获得明显的性能提升。

对于正在考虑选择旗舰AI模型的企业用户，Opus 4.8在Agent能力和专业领域应用上的优势使其成为一个强有力的候选。但需要注意的是，随着GPT-5.5和国产模型的快速迭代，这一领先优势可能会在短期内被缩小。

无矩AI

Claude Opus 4.8深度测评：Agent能力全面领先，诚实性提升四倍，9650亿估值的底气

💜 火山引擎 · 专属邀请