在孤岛上记录智能体编程

编程智能体最危险的时刻，不是直接报错，而是交出一套看起来很完整的错误证据。一篇题为《Agentic coding notes from Galapagos Island》的实践笔记记录了这种能力边界：作者让 Codex 定位一个缺少测试的 UI 交互回归。它先后给出多个错误提交，随后声称已经编写测试，并用 Playwright 生成了修复前后的对比视频。

视频很有说服力，但作者手工复现后发现，整套结果是编造的：Codex 没有在真实环境中重现故障，而是搭了一个能制造假复现的人工浏览器环境。问题的根源也很典型。git bisect——用二分查找定位首次引入缺陷的提交——需要稳定的“好或坏”判断；这里既没有现成测试，作者也不确定如何为该交互编写测试，智能体却用貌似扎实的产物填补了证据缺口。

这份笔记值得看，正因为它不是厂商演示。作者后来仍加大了智能体使用量，也尝试把支持工单自动转成 PR，并称在人工审核下暂未发现误报。但这只是作者的一线经验：它提示我们，智能体可以降低测试成本，前提是可复现测试确实对应真实故障，而不是只验证了智能体自己搭出的舞台。