您的位置 首页 大模型测评

Claude Sonnet 5深度测评:Anthropic的”执行者”模型,Agent能力下放中端价位

💜 火山引擎 · 专属邀请

🎁 注册领免费Token
🤖 豆包大模型 新用户领50万Token
💻 DeepSeek系列 单模型日赠500万额度
📊 全模型支持 语音/视觉/向量全可用
💡 新用户注册领模型资源包
✅ 零门槛体验主流大模型推理服务
✅ 支持语音/图像/向量多场景调用
🎯 长期免费额度持续可用
💎 福利说明:新用户注册并关联账号,即可领取免费Token额度
立即注册 领免费Token →
扫码领取福利 扫码咨询 领取免费Token

2026年6月30日,Anthropic 正式发布 Claude Sonnet 5(代号 Fennec)。官方…

Claude Sonnet 5深度测评

2026年6月30日,Anthropic 正式发布 Claude Sonnet 5(代号 Fennec)。官方给它的定位极其精准——“Near-Opus thinking, at Sonnet speed”:接近 Claude Opus 4.8 的思考能力,同时保留 Sonnet 系列的速度和亲民价格。Anthropic 称其为”迄今最具 Agent 能力的 Sonnet 模型”,并直接将其设为 Claude 平台的默认模型,向免费和专业用户全量开放。


一、定位:”Near-Opus thinking, at Sonnet speed”

Anthropic 为 Sonnet 5 设定的产品坐标非常清晰——它不是要成为最强的模型,而是要成为“最会干活”的模型。官方反复强调的不是单轮问答或数学推理得分,而是 agentic tasks、coding、tool use、computer use 和 knowledge work 这些真实工作场景。

这一策略背后的逻辑很直白:旗舰模型(Opus)继续拉高能力上限,中档模型(Sonnet)开始承担日常执行。过去,复杂 Agent 任务默认要上最贵的模型,因为中端模型在状态保持、工具调用稳定性、失败后恢复等关键能力上始终差一口气。Sonnet 5 正在缩小这个差距。

发布当天,Cursor 立刻宣布接入 Sonnet 5;Perplexity 将其设为默认模型;Zapier 的高级工程师第一时间用它跑通了以前模型常搞砸的 Salesforce 自动化流程。企业端的反应速度,说明市场对这个定位是买账的。


二、性能实测:直逼旗舰的数据

在多项硬核 benchmark 上,Sonnet 5 已经跨入了与 Opus 4.8 高度重叠的性能区间:

基准测试Sonnet 5Opus 4.8Sonnet 4.6GPT-5.5
SWE-bench Pro63.2%69.2%58.1%58.6%
Terminal-Bench 2.180.4%82.7%
OSWorld-Verified81.2%83.4%78.5%
Humanity’s Last Exam(有工具)57.4%57.9%
GDPval-AA v216181615
CursorBench 3.157%约60%49%

三、Agent 能力:从”会聊天”到”能把活干完”

真正把 Sonnet 5 与前代区分开的,不是跑分,而是它变得极其”靠谱”——尤其擅长处理那种以前会半途卡壳的脏活累活。这种”不掉链子”的特质,正是企业敢把实验项目转为生产部署的关键。

一个真正可用于 Agent 的模型,至少要过五道关:

  • 目标拆解:把”帮我修这个 bug”拆成理解项目结构、定位入口、复现问题、改代码、跑测试的完整链路
  • 工具调用:判断什么时候查文件、什么时候跑命令、什么时候搜索资料、什么时候等用户确认
  • 状态保持:跨多轮操作不忘记自己改了什么、命令返回了什么、测试失败在哪里
  • 失败恢复:命令失败、依赖冲突、测试报错时,能根据反馈继续推进而非原地打转
  • 避免假完成:没有真正跑通时不会直接宣称”已经完成”

Sonnet 5 的核心参数全部指向同一件事:让模型接更长的任务链。1M 上下文窗口、128K 最大输出、五档 effort 控制(low / medium / high / extra / max),配合默认启用的自适应思考能力,使得任务能分档执行——小修小补放 low,迁移调试跨文件改动再拉高。

“Sonnet 5 闻起来有’下一代’的味道。它会查自己的输出,会在没人明确要求的情况下主动核对错误。在 Fable 真正回归之前,这可能是目前最好的模型。”

— 播客主持人 Ben Davis

四、企业实战:Cursor、Box、Zapier 的真实反馈

基准测试之外,真实工作流中的表现更能说明问题。

4.1 Cursor:编码效率的量化提升

代码编辑器 Cursor 在 Sonnet 5 发布当天即宣布接入。在 CursorBench 3.1 中,Sonnet 5 默认档拿到57%,而前代 Sonnet 4.6 high 档仅为49%,位置接近 Opus 4.8 high 档,但平均任务成本更低。Cursor 联合创始人 Sualeh Asif 的评价是:这个新模型能死死咬住既定计划,规规矩矩遵循开发规范,最后用让人舒服的成本交付出一串清晰的多步骤代码变更。

4.2 Box:复杂文档的端到端处理

Box CEO Aaron Levie 用内部 AI 评估体系测试了 Sonnet 5。在能源行业任务上领先前代4.7个百分点,零售4.4%,专业服务2.6%。具体案例中,Sonnet 5 能从原始资产负债表算出流动性和杠杆比率,揪出低估的债务权益比;分析大修成本时能聪明地限定在 KPI 框架内,剥离应单独追踪的生产损失成本;做 SKU 收入分析时能准确计算每个产品对子类别分母的贡献,而非无脑除以总和。

4.3 Zapier:自动化工作流的可靠闭环

Zapier 高级工程师 Daniel Shepard 给 Sonnet 5 派了一个以前模型常搞砸的活儿:自动更新公司繁杂的 Salesforce 账户层级,同时发出一封格式严谨的发布公告。以前的模型通常进行到一半就会卡住,但 Sonnet 5 从头到尾完成了整个工作流。这种能可靠地跑完全程的能力,彻底改变了自动化的经济效益。


五、定价与隐藏成本

Sonnet 5 的定价策略是其产品定位的延伸:

模型输入($/M tokens)输出($/M tokens)相对 Opus 成本
Sonnet 5(首发价至8/31)210约40%
Sonnet 5(标准价)315约60%
Opus 4.8525100%

表面看降价幅度很大,但开发者 Simon Willison 发现了一个隐藏变量:Sonnet 5 换了一版新分词器,同内容的 token 消耗量比 Sonnet 4.6 多了约27%-42%。英文版《世界人权宣言》从2356 token 膨胀到3341 token(1.42倍);四千多行 Python 代码从44014涨到56113(1.27倍)。唯一例外是中文文本,消耗量基本持平(1.01倍)。

注意:Anthropic 在脚注中坦承,优惠定价的设定目的就是让过渡期”大致保持成本中性”。那几美元的降价空间,有一部分是用来对冲 token 膨胀的。对于重度依赖英文处理或大量跑 Python 代码的开发者,单次任务成本可能并没有宣传的那么美好。评估模型时,不应只看 token 单价,而要看 cost per successful task——每成功完成一个任务的总成本。


六、安全性:更稳,但仍需边界

Anthropic 在 Sonnet 5 的 System Card 中花了大量篇幅讨论安全评估。与前代相比,Sonnet 5 在多个维度上有实打实的改善:

  • 幻觉和谄媚率更低:整体不当行为得分比 Sonnet 4.6 更低
  • 恶意请求拒绝更强:面对滥用请求时更擅长说”不”
  • 提示注入抵抗提升:Shade 间接提示注入测试,编码环境下无防护攻击成功率仅0.31%,加 safeguards 后降至0.09%(Opus 4.8 无防护为7.03%)
  • 漏洞利用测试:Firefox 147 漏洞开发测试,默认安全缓解后得分为0

但 Anthropic 也坦诚指出,Sonnet 5 的安全性仍略低于 Opus 4.8 和专门聚焦网络安全的 Claude Mythos Preview。对于高敏感的网络安全任务,官方仍然建议改用 Opus 4.8。


七、争议:真香还是退钱?

任何一次模型发布,社区反馈都不会只有一种声音。Sonnet 5 上线后的争论迅速分裂成两极:

7.1 支持方:中端价格买旗舰体验

Cursor 和 Box 等企业用户的正面反馈已经说明了问题。对大量开发任务来说,模型不需要拿第一,只需要用更低成本把事情推进到可检查状态。修 bug、补测试、读旧代码、小范围重构——这些高频任务不需要 Opus 的极致能力,但需要稳定、可控、可预测的执行。Sonnet 5 正好卡在这个甜区。

7.2 质疑方:Max 档的性价比陷阱

争议的核心集中在 Max effort 档。有开发者指出,Sonnet 5 Max 比 Opus 4.8 Max 只便宜了0.72美元,得分还更低,消耗的 token 却更多。如果为了得到更差的结果反而需要更多 token,那每 token 单价优势就失去了意义。

另一重质疑来自版本号跳跃。从 4.6 直接跳到 5,通常意味着重大飞跃,但性能提升并未达到这个预期。有分析认为,这可能是因为 Fable 5 等更强模型因监管沟通被推迟,Anthropic 需要发布点什么来维持市场声量。

建议:别把 Sonnet 5 当成 Opus 4.8 的廉价替身。低 effort 和默认档下,它是 Claude Code 里完美的执行模型,用来跑常规任务、修 bug、补测试、处理迁移。但一旦开到 Max 档追求极致性能,性价比会变得尴尬。真实开发里,模型不只有”最强”和”没用”两个位置。


八、适用人群与使用建议

  • 软件开发者:作为 Claude Code / Cursor 的日常执行模型,处理修 bug、补测试、代码迁移等高频任务。建议 effort 设 medium-high,复杂任务配合 Dynamic Workflows
  • 企业自动化团队:流程自动化、文档处理、CRM 同步、数据汇总等”中高复杂度但高频”的执行层任务
  • AI 产品开发者:构建 Agent 系统时的云端强执行层,本地 Qwen/vLLM 做前置路由和轻任务,Sonnet 5 做复杂执行
  • 需要极致推理的场景:复杂架构判断、关键代码审查、困难故障定位、高敏感网络安全任务——仍建议用 Opus 4.8 或等待 Fable 5
  • 预算敏感的个人开发者:首发期(至8月31日)的2/10美元定价值得尝试,但需先用典型 workload 做 token 消耗基准测试,避免账单惊喜

写在最后:四个月前,让 AI 自主规划任务、操作浏览器和终端还是少数人的特权。今天,打开 Claude,免费默认模型已经具备了这种能力。Sonnet 5 的发布说明一个趋势正在加速:前沿模型的 Agent 能力,正在从旗舰独占扩散到适合高频调用的中档模型。真正的问题不再是”哪个模型最聪明”,而是”既然这种水平的能力足够便宜可以每天使用,我们现在能构建什么”。那通常是真正转变开始的地方。


延伸阅读

本文来自网络,不代表无矩AI立场,转载请注明出处:https://iaipie.com/claude-sonnet-5%e6%b7%b1%e5%ba%a6%e6%b5%8b%e8%af%84%ef%bc%9aanthropic%e7%9a%84%e6%89%a7%e8%a1%8c%e8%80%85%e6%a8%a1%e5%9e%8b%ef%bc%8cagent%e8%83%bd%e5%8a%9b%e4%b8%8b%e6%94%be%e4%b8%ad%e7%ab%af/

作者: ncomer

🤖 阿里云 · 大模型 AI 套餐

通义千问 + HappyHorse 视频生成 + 百炼平台一站式部署

🎁 通过本链接额外 15% 优惠 🎬 HappyHorse 视频模型 | 💬 通义千问 | ☁️ 百炼平台

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

0890-88881680

在线咨询: QQ交谈

邮箱: 23935379@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部