Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
NEWS 3 信源 约 6 分钟

Claude Sonnet 5:新一代主力模型来了

Sonnet 5 把接近 Opus 的部分任务能力带到更低价位,但新 tokenizer 改变了真实成本。

主力模型换代,重点不只在跑分

很多 AI agent 的问题不是不会答,而是做不完:它能提出方案,也能调用浏览器或终端,却可能在多步骤任务中途停下。Anthropic 于 2026 年 6 月 30 日发布 Claude Sonnet 5,瞄准的正是这种落差。

这里的 agentic 能力,指模型能围绕目标持续规划、调用工具,再根据结果调整行动,而不只是完成一次问答。Anthropic 将 Sonnet 5 定位为迄今 agentic 能力最强的 Sonnet,并称其在推理、工具使用、编程和知识工作上明显强于 Sonnet 4.6。更关键的是,它试图缩小 Sonnet 与更昂贵的 Opus 之间的差距。

不过,现有性能与安全结论主要来自 Anthropic 自评和早期合作伙伴反馈。供稿没有完整图表数值、评测配置或独立复现,因此“接近 Opus”需要放回具体任务和 effort 设置中理解。

它到底新在哪?

Anthropic 展示了两项 agent 评测:网页搜索任务 BrowseComp,以及衡量模型操作计算机能力的 OSWorld-Verified。官方称,Sonnet 5 在两项评测上都严格优于 Sonnet 4.6;在部分高 effort——即允许模型投入更多推理与计算资源——的任务中,它可以匹配 Opus 4.8。

这不等于 Sonnet 5 全面达到 Opus 4.8。更准确的说法是:它覆盖了更宽的成本—性能区间,在中等 effort 下尤其强调成本效率,并能在部分任务的高投入设置中追上 Opus。Anthropic 所说的“性能接近 Opus 4.8”,应当按这个边界理解。

早期合作伙伴给出的案例集中在软件工程和业务自动化:持续调试复杂代码、完成带测试验证的真实 pull request,或连续执行修改 Salesforce 数据和发送通知等步骤。这些材料说明 Anthropic 想把 Sonnet 5 塑造成日常 agent 的执行层,但它们仍属于厂商筛选的早期反馈,不能代替广泛实测。

模型规格也向长任务倾斜。Sonnet 5 提供 100 万 token 上下文窗口,最大输出为 12.8 万 token。API 中,temperaturetop_ptop_k 三个采样参数不再受支持,adaptive thinking 默认开启,开发者也可以显式关闭。对已有生产系统来说,这不只是替换模型名:请求参数和行为假设都需要重新检查。

发布当天,Sonnet 5 已覆盖 Claude 全部套餐,并成为 Free 和 Pro 的默认模型;它同时进入 Claude Code、Claude Platform 与 API,API 模型名为 claude-sonnet-5

标价更低,账单未必按比例下降

Sonnet 5 的推广价持续到 2026 年 8 月 31 日:每百万输入 token 2 美元、输出 token 10 美元。之后恢复为输入 3 美元、输出 15 美元。这个价格低于 Opus 档模型,也是其“新一代主力”定位的重要部分。

但价格表不是完整成本。Sonnet 5 使用了新的 tokenizer——把文本切成计费 token 的组件。官方开发者材料称,相同输入文本相较 Sonnet 4.6 大约会产生 30% 更多 token。也就是说,即使每百万 token 单价不变,某些工作负载的实际输入费用仍可能上升。

Simon Willison 的少量样本进一步显示,这个变化并不均匀:英文约为 Sonnet 4.6 的 1.42 倍,西班牙文约 1.33 倍,Python 代码约 1.27—1.28 倍,简体中文约 1.01 倍。样本规模不足以代表所有内容,但足以提醒开发者:迁移前应当用自己的提示词、代码库和文档重新测量 token,而不是直接套用“多 30%”这一平均说法。对中文输入较多的应用,这组有限实测反而显示成本变化可能很小。

为什么值得关注

Sonnet 5 的意义不在于刷新一个孤立榜单,而在于重新划分默认模型与旗舰模型的职责。如果 Sonnet 档能在部分多步骤任务中接近 Opus,同时保持更低单价,团队就可能把更多编码、搜索和计算机操作任务交给默认模型,只把最困难的工作升级到 Opus。

这种价值最终取决于“做完任务”的总成本,而不是一次调用的标价。更长上下文、更长输出和更强的连续执行能力,可能减少人工接管或重复调用;新 tokenizer 又可能推高部分输入成本。真正有意义的比较,应同时记录成功率、调用步数、effort、token 数和人工复核时间。

局限与未知

  • 供稿没有披露 BrowseComp、OSWorld-Verified 的具体分数与完整配置,也没有第三方复现。“接近 Opus 4.8”只适用于部分任务和 effort 设置。
  • Anthropic 的安全评估称,Sonnet 5 的不良行为率总体低于 Sonnet 4.6,也更能拒绝恶意请求和抵抗提示注入;同时,其网络安全任务能力明显低于当前 Opus 模型。网络安全评估关注漏洞发现、利用和权限维持等能力,能力较低不等于整体安全性必然更高。
  • System Card 是披露能力、安全风险、缓解措施和已知局限的技术文档,但供稿只提供了其标题,无法进一步核查具体评测设计。现阶段更稳妥的判断是:Sonnet 5 很可能成为 Claude 产品线的新默认主力,至于能否替代 Opus,仍要由具体任务和真实账单决定。

供稿材料 SOURCES — 3
01
Introducing Claude Sonnet 5 Anthropic (via Google News) · NEWS
原文 ↗
02
What's new in Claude Sonnet 5 Simon Willison's Weblog · NEWS
原文 ↗
03
Claude Sonnet 5 System Card Anthropic (via Google News) · NEWS
原文 ↗

← 返回 2026-07-05 · 学术板块