Claude Sonnet 5：新一代主力模型来了

主力模型换代，重点不只在跑分

很多 AI agent 的问题不是不会答，而是做不完：它能提出方案，也能调用浏览器或终端，却可能在多步骤任务中途停下。Anthropic 于 2026 年 6 月 30 日发布 Claude Sonnet 5，瞄准的正是这种落差。

这里的 agentic 能力，指模型能围绕目标持续规划、调用工具，再根据结果调整行动，而不只是完成一次问答。Anthropic 将 Sonnet 5 定位为迄今 agentic 能力最强的 Sonnet，并称其在推理、工具使用、编程和知识工作上明显强于 Sonnet 4.6。更关键的是，它试图缩小 Sonnet 与更昂贵的 Opus 之间的差距。

不过，现有性能与安全结论主要来自 Anthropic 自评和早期合作伙伴反馈。供稿没有完整图表数值、评测配置或独立复现，因此“接近 Opus”需要放回具体任务和 effort 设置中理解。

它到底新在哪？

Anthropic 展示了两项 agent 评测：网页搜索任务 BrowseComp，以及衡量模型操作计算机能力的 OSWorld-Verified。官方称，Sonnet 5 在两项评测上都严格优于 Sonnet 4.6；在部分高 effort——即允许模型投入更多推理与计算资源——的任务中，它可以匹配 Opus 4.8。

这不等于 Sonnet 5 全面达到 Opus 4.8。更准确的说法是：它覆盖了更宽的成本—性能区间，在中等 effort 下尤其强调成本效率，并能在部分任务的高投入设置中追上 Opus。Anthropic 所说的“性能接近 Opus 4.8”，应当按这个边界理解。

早期合作伙伴给出的案例集中在软件工程和业务自动化：持续调试复杂代码、完成带测试验证的真实 pull request，或连续执行修改 Salesforce 数据和发送通知等步骤。这些材料说明 Anthropic 想把 Sonnet 5 塑造成日常 agent 的执行层，但它们仍属于厂商筛选的早期反馈，不能代替广泛实测。

模型规格也向长任务倾斜。Sonnet 5 提供 100 万 token 上下文窗口，最大输出为 12.8 万 token。API 中，temperature、top_p 和 top_k 三个采样参数不再受支持，adaptive thinking 默认开启，开发者也可以显式关闭。对已有生产系统来说，这不只是替换模型名：请求参数和行为假设都需要重新检查。

发布当天，Sonnet 5 已覆盖 Claude 全部套餐，并成为 Free 和 Pro 的默认模型；它同时进入 Claude Code、Claude Platform 与 API，API 模型名为 claude-sonnet-5。

标价更低，账单未必按比例下降

Sonnet 5 的推广价持续到 2026 年 8 月 31 日：每百万输入 token 2 美元、输出 token 10 美元。之后恢复为输入 3 美元、输出 15 美元。这个价格低于 Opus 档模型，也是其“新一代主力”定位的重要部分。

但价格表不是完整成本。Sonnet 5 使用了新的 tokenizer——把文本切成计费 token 的组件。官方开发者材料称，相同输入文本相较 Sonnet 4.6 大约会产生 30% 更多 token。也就是说，即使每百万 token 单价不变，某些工作负载的实际输入费用仍可能上升。

Simon Willison 的少量样本进一步显示，这个变化并不均匀：英文约为 Sonnet 4.6 的 1.42 倍，西班牙文约 1.33 倍，Python 代码约 1.27—1.28 倍，简体中文约 1.01 倍。样本规模不足以代表所有内容，但足以提醒开发者：迁移前应当用自己的提示词、代码库和文档重新测量 token，而不是直接套用“多 30%”这一平均说法。对中文输入较多的应用，这组有限实测反而显示成本变化可能很小。

为什么值得关注

Sonnet 5 的意义不在于刷新一个孤立榜单，而在于重新划分默认模型与旗舰模型的职责。如果 Sonnet 档能在部分多步骤任务中接近 Opus，同时保持更低单价，团队就可能把更多编码、搜索和计算机操作任务交给默认模型，只把最困难的工作升级到 Opus。

这种价值最终取决于“做完任务”的总成本，而不是一次调用的标价。更长上下文、更长输出和更强的连续执行能力，可能减少人工接管或重复调用；新 tokenizer 又可能推高部分输入成本。真正有意义的比较，应同时记录成功率、调用步数、effort、token 数和人工复核时间。

局限与未知

供稿没有披露 BrowseComp、OSWorld-Verified 的具体分数与完整配置，也没有第三方复现。“接近 Opus 4.8”只适用于部分任务和 effort 设置。
Anthropic 的安全评估称，Sonnet 5 的不良行为率总体低于 Sonnet 4.6，也更能拒绝恶意请求和抵抗提示注入；同时，其网络安全任务能力明显低于当前 Opus 模型。网络安全评估关注漏洞发现、利用和权限维持等能力，能力较低不等于整体安全性必然更高。
System Card 是披露能力、安全风险、缓解措施和已知局限的技术文档，但供稿只提供了其标题，无法进一步核查具体评测设计。现阶段更稳妥的判断是：Sonnet 5 很可能成为 Claude 产品线的新默认主力，至于能否替代 Opus，仍要由具体任务和真实账单决定。