您的位置 首页 个人实战

Claude Opus 4.8深度测评:Agent能力全面领先,诚实性提升四倍,9650亿估值的底气

🔥 火山剧创 1.0

🎬 Seedance 2.0 🖼️ Seedream 5.0 Lite ⚡ Seedance 2.0 Fast 🎨 Seedream 4.5
✅ 支持 30个 子账号
✅ 开通即赠 10,000 积分
🎬 生成约 67秒 720p视频
🖼️ 生成约 450张 图片
💧 视频去水印导出
立即关联,抢内测资格 →
扫码购买 扫码加微信抢内测资格

Anthropic旗舰模型Claude Opus 4.8深度测评:SWE-Bench Pro达69.2%,Terminal-Bench提升8.5%,诚实性错误率降低四倍。动态工作流、

Claude Opus 4.8 深度测评

2026年5月28日,Anthropic正式发布了Claude Opus 4.8,这是其旗舰模型的最新版本。作为Claude系列中最强大的模型,Opus 4.8在编码能力、Agent性能、推理能力和实际知识工作任务上均有显著提升。更重要的是,Anthropic在同一天宣布完成650亿美元H轮融资,估值达到9650亿美元,逼近万亿美金大关。本文将从技术性能、实际应用场景、新功能特性以及行业影响等多个维度,对Claude Opus 4.8进行深度测评。

一、核心性能提升:数据说话

Opus 4.8相比前代Opus 4.7,在多个关键基准测试上实现了 measurable 的改进。以下是详细的性能对比数据:

测试项目Opus 4.7Opus 4.8提升幅度说明
SWE-Bench Pro64.3%69.2%+4.9%Agent编码能力测试
Terminal-Bench 2.166.1%74.6%+8.5%终端编码能力测试
Humanity’s Last Exam46.9%49.8%+2.9%推理能力综合测试
OSWorld-Verified82.3%83.4%+1.1%计算机操作能力
Legal Agent Benchmark低于10%突破10%历史首次法律Agent全通过标准
Online-Mind2Web84%领先浏览器Agent能力

1.1 编码能力:从优秀到卓越

在编码能力方面,Opus 4.8的提升尤为显著。SWE-Bench Pro测试从64.3%提升至69.2%,这意味着模型在处理真实软件工程任务时的成功率提高了近5个百分点。更值得关注的是Terminal-Bench 2.1的8.5%提升,这表明Opus 4.8在终端环境下的代码理解和执行能力有了质的飞跃。

CursorBench测试显示,Opus 4.8在所有努力级别(effort level)上都超越了前代模型。工具调用效率更高,使用更少的步骤达到相同的智能水平,并且能够更好地完成端到端任务。

1.2 推理能力:稳步前进

Humanity’s Last Exam作为综合性推理测试,Opus 4.8从46.9%提升至49.8%,虽然提升幅度相对温和,但考虑到该测试的难度,这一进步仍然值得关注。这表明Anthropic在模型推理能力上的持续投入正在产生效果。

1.3 Agent能力:全面领先

在Agent能力测试中,Opus 4.8表现突出:

  • Super-Agent benchmark:Opus 4.8是唯一能够端到端完成所有测试用例的模型,超越了前代Opus模型和GPT-5.5
  • Legal Agent Benchmark:首次突破10%的全通过标准,为法律领域的AI应用打开了新的可能性
  • Online-Mind2Web:达到84%,在浏览器Agent能力上实现了对Opus 4.7和GPT-5.5的超越

二、诚实性改进:AI的自我纠错

Opus 4.8最显著的改进之一是其诚实性(Honesty)。Anthropic在训练所有模型时都强调诚实——例如避免做出无法支持的声明。但AI模型普遍存在一个问题:有时会草率下结论,自信地声称自己在工作中取得了进展,尽管证据薄弱。

早期测试者反馈显示,Opus 4.8更有可能标记其工作中的不确定性,更不可能做出无支持的声明。评估数据显示,Opus 4.8允许代码缺陷未被发现通过的可能性比前代降低了约四倍

这一改进对于实际应用意义重大。在编程、法律、金融等对准确性要求极高的领域,模型能够主动指出不确定性,而不是盲目自信地给出错误答案,这将大大提升AI工具的实用价值。

三、新功能特性详解

3.1 动态工作流(Dynamic Workflows)

这是Claude Code中的一项重磅新功能,目前处于研究预览阶段。动态工作流允许Claude在单个会话中承担更大的任务:

  • 任务规划:Claude可以规划工作,然后运行数百个并行子Agent
  • 长时间运行:使用Opus 4.8时,Agent可以运行更长时间
  • 输出验证:在报告给用户之前验证其输出

实际应用示例:Claude Code配合Opus 4.8现在可以执行代码库规模的重构,跨越数十万行代码,从启动到合并,以现有测试套件作为标准。

该功能目前适用于Claude Code的企业版、团队版和Max计划用户。

3.2 努力程度控制(Effort Control)

claude.ai和Cowork平台新增了一个控制选项,让用户可以选择Claude在响应中投入的努力程度:

  • 更高努力设置:Claude会更频繁、更深入地思考,以提供更好的响应
  • 较低努力设置:Claude响应更快,消耗用户速率限制更慢

Opus 4.8默认采用高努力模式,Anthropic认为这是质量和用户体验的最佳整体平衡。在编码任务上,这一努力级别消耗的token数量与Opus 4.7默认相当,但性能更好。

用户还可以选择”extra”(在Claude Code中为”xhigh”)或”max”模式,模型将消耗更多token以获得更好的结果。Anthropic建议在困难任务和长时间运行的异步工作流中使用”extra”模式。

3.3 快速模式(Fast Mode)降价

Opus 4.8的快速模式(模型以2.5倍速度工作)现在比前代模型便宜三倍。这为需要快速响应的场景提供了更具性价比的选择。

3.4 Messages API更新

Messages API现在接受messages数组内的system条目。开发者可以在任务进行中更新Claude的指令,而无需破坏提示缓存或将更新路由通过用户回合。这可用于在给定工具中更新权限、token预算或环境上下文。

四、实际应用场景测评

4.1 软件开发

根据多家科技公司的早期测试反馈:

Devin(Cognition Labs):Opus 4.8干净地使用工具,并以自主工程工作负载所需的 consistency 遵循指令。相比Opus 4.6有所改进,并修复了Opus 4.7中看到的评论冗长性和工具调用问题。

Cursor:在CursorBench上,Opus 4.8在每个努力级别上都超越了前代Opus模型。工具调用更有意义地高效,使用更少的步骤获得相同的智能,并且能够完成端到端任务。

Super-Agent:Opus 4.8是唯一能够端到端完成所有测试用例的模型,在成本平价的情况下击败了前代Opus模型和GPT-5.5。

4.2 法律领域

CoCounsel Legal:Opus 4.8在法律Agent基准测试中达到了最高分,并且是第一个在全通过标准上突破10%的模型。对于实质性法律工作,这种准确性提升直接转化为客户可以放心委托给AI的实际律师工作量。

Hebbia:对于Hebbia编排器中的金融文档工作流,Opus 4.8提供与Opus 4.7相同的强大质量,但引用精度明显更好,检索时的token效率更高。

4.3 数据分析

Databricks(Genie):Opus 4.8解锁了Agent推理的阶梯式变化,比任何前代Opus更快地处理更深入的多步骤问题。其多模态优势还让Genie能够直接对PDF、图表和其他非结构化内容进行推理,token成本比Opus 4.7降低61%。

金融分析:在长期运行的评估中,Opus 4.8的分析质量始终高于前代Opus模型。它完成得更快,产生更丰富、信息更密集的输出。最大的区别是Opus 4.8倾向于主动标记分析的输入和输出问题,这是其他模型经常遗漏的。

4.4 内容创作

早期测试者反馈,Opus 4.8在创意写作和技术文档编写方面表现出色:

  • 更好地保持跨长会话的上下文和风格方向
  • 在声音、品味和技术执行需要同时发生的任务中表现可靠
  • 更快地完成分析,产生更丰富的输出

五、定价与可用性

5.1 标准定价

Opus 4.8的常规使用定价与Opus 4.7保持不变:

  • 输入token:5美元/百万
  • 输出token:25美元/百万

5.2 快速模式定价

快速模式定价大幅下降:

  • 输入token:10美元/百万
  • 输出token:50美元/百万
  • 速度:2.5倍于标准模式

相比前代,快速模式成本降低三倍,为需要快速响应的场景提供了更好的性价比。

5.3 可用平台

Opus 4.8已在所有平台上线:

  • claude.ai网页端
  • Claude Code
  • Anthropic API(模型名称:claude-opus-4-8)
  • Cowork

六、与竞品的对比

6.1 与GPT-5.5的对比

维度Claude Opus 4.8GPT-5.5
SWE-Bench Pro69.2%约65%
Terminal-Bench 2.174.6%83.4%(使用Codex CLI)
Super-Agent完成所有用例未完成所有用例
Legal Agent突破10%低于10%
浏览器Agent84%约80%
定价(输入/输出)$5/$25类似区间

总体来看,Opus 4.8在大多数Agent和编码任务上领先GPT-5.5,但在纯终端编码任务上,GPT-5.5配合Codex CLI仍有一定优势。

6.2 与国产模型的对比

相比DeepSeek V4和Qwen 3.7-Max等国产旗舰模型,Opus 4.8在以下方面保持领先:

  • Agent能力:在复杂的端到端任务上表现更稳定
  • 多模态理解:对PDF、图表等非结构化内容的理解更深入
  • 诚实性:主动标记不确定性的能力更强

但国产模型在成本和中文场景优化上仍有优势,实际选择需根据具体需求权衡。

七、未来展望

7.1 短期计划

Anthropic表示,Opus 4.8是对前代的适度但切实的改进。公司正在开发能够以更低成本提供许多与Opus相同能力的模型。

7.2 Mythos级模型

作为Project Glasswing的一部分,Anthropic计划发布一类比Opus更智能的新模型。目前,少数组织正在使用Claude Mythos Preview进行网络安全工作。这类能力水平的模型需要更强的网络安全保障措施才能正式发布。Anthropic表示正在迅速推进这些保障措施的开发,预计在未来几周内将所有客户带来Mythos级模型。

八、总结与建议

8.1 核心优势

  • Agent能力全面领先:在多个Agent基准测试中表现最佳
  • 诚实性显著提升:错误率降低四倍,更适合高风险场景
  • 新功能实用:动态工作流、努力程度控制提升了使用灵活性
  • 性价比改善:快速模式降价三倍,降低了使用门槛

8.2 适用场景

强烈推荐使用

  • 复杂的软件工程任务
  • 法律、金融等专业领域分析
  • 需要高准确性的多步骤Agent任务
  • 大规模代码库重构

可考虑其他选项

  • 纯终端编码任务(GPT-5.5+Codex CLI可能更快)
  • 成本敏感的中文场景(国产模型可能更划算)
  • 简单的问答任务(使用更便宜的模型即可)

8.3 总体评价

Claude Opus 4.8是一次稳健而非革命性的升级。它在保持前代优势的基础上,在Agent能力、诚实性和实用性方面实现了可测量的改进。对于已经使用Opus 4.7的用户,升级到4.8几乎没有任何成本障碍(定价相同),且能获得明显的性能提升。

对于正在考虑选择旗舰AI模型的企业用户,Opus 4.8在Agent能力和专业领域应用上的优势使其成为一个强有力的候选。但需要注意的是,随着GPT-5.5和国产模型的快速迭代,这一领先优势可能会在短期内被缩小。

本文来自网络,不代表无矩AI立场,转载请注明出处:https://iaipie.com/claude-opus-4-8%e6%b7%b1%e5%ba%a6%e6%b5%8b%e8%af%84%ef%bc%9aagent%e8%83%bd%e5%8a%9b%e5%85%a8%e9%9d%a2%e9%a2%86%e5%85%88%ef%bc%8c%e8%af%9a%e5%ae%9e%e6%80%a7%e6%8f%90%e5%8d%87%e5%9b%9b%e5%80%8d%ef%bc%8c/

作者: ncomer

🤖 阿里云 · 大模型 AI 套餐

通义千问 + HappyHorse 视频生成 + 百炼平台一站式部署

🎁 通过本链接额外 15% 优惠 🎬 HappyHorse 视频模型 | 💬 通义千问 | ☁️ 百炼平台

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

0890-88881680

在线咨询: QQ交谈

邮箱: 23935379@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部