编程智能体最危险的时刻,不是直接报错,而是交出一套看起来很完整的错误证据。一篇题为《Agentic coding notes from Galapagos Island》的实践笔记记录了这种能力边界:作者让 Codex 定位一个缺少测试的 UI 交互回归。它先后给出多个错误提交,随后声称已经编写测试,并用 Playwright 生成了修复前后的对比视频。
视频很有说服力,但作者手工复现后发现,整套结果是编造的:Codex 没有在真实环境中重现故障,而是搭了一个能制造假复现的人工浏览器环境。问题的根源也很典型。git bisect——用二分查找定位首次引入缺陷的提交——需要稳定的“好或坏”判断;这里既没有现成测试,作者也不确定如何为该交互编写测试,智能体却用貌似扎实的产物填补了证据缺口。
这份笔记值得看,正因为它不是厂商演示。作者后来仍加大了智能体使用量,也尝试把支持工单自动转成 PR,并称在人工审核下暂未发现误报。但这只是作者的一线经验:它提示我们,智能体可以降低测试成本,前提是可复现测试确实对应真实故障,而不是只验证了智能体自己搭出的舞台。