Claude Opus 4.8深度测评:Agent能力全面领先,诚实性提升四倍,9650亿估值的底气
Anthropic旗舰模型Claude Opus 4.8深度测评:SWE-Bench Pro达69.2%,Terminal-Bench提升8.5%,诚实性错误率降低四倍。动态工作流、
Claude Opus 4.8刚发布就翻车:追问身份时自称DeepSeek和Qwen,Anthropic陷入双标争议
Claude Opus 4.8发布当天被网友发现,通过API询问时会自称DeepSeek或Qwen而非Claude。
