AI 真正的拐点，不是会写代码，而是进入自我改进循环

Anthropic 这篇《When AI builds itself》容易被读成一个惊悚标题：AI 要自己制造下一代 AI 了，世界是不是该立刻按暂停键？

我认为这不是它真正有价值的地方。

它真正有价值的地方，是把一个更底层的变化摊开了：AI 的角色正在从“执行人类给出的任务”，进入“参与生产下一代 AI 能力”的链条。这个链条一旦闭合，问题就不再是某个模型会不会写代码，而是人类还能不能掌握目标、验证、节奏和停止权。

换句话说，真正的拐点不是 AGI 宣告，而是能力再生产系统的形态变化。

原文到底说了什么

Anthropic 的原文很谨慎。它没有说完整的 recursive self-improvement 已经发生，也没有说这件事必然发生。原文明确承认：现在还没到 AI 完全自主设计、训练并开发自己继任者的阶段。

但它给出了几类早期证据。

第一，AI 在完成更长任务。原文引用 METR 长时任务评测，以及 SWE-bench、CORE-Bench 等软件工程和研究复现 benchmark，认为模型可独立完成任务的时间跨度在快速拉长。这里的重点不是某个 benchmark 分数，而是任务粒度从几分钟、几十分钟，逐步走向数小时乃至更长。

第二，AI 正在改变 AI 公司内部的软件生产。Anthropic 披露，截至 2026 年 5 月，按其 attribution 口径，Claude 署名了其生产代码库中超过 80% 的合并代码；原文还以 2026 年第二季度当季数据描述，典型工程师每天合并的代码量约为 2024 年的 8 倍。这里的“署名”不等于每一行都无需人类目标设定、审查或合并判断。

第三，AI 不只是写代码，还在做实验执行。原文提到，在一个固定目标的训练代码优化任务上，Claude 从 2025 年 5 月约 3 倍加速，提升到 2026 年 4 月约 52 倍加速。这个数字不能直接理解成现实训练成本也被压低 52 倍，但它说明：在目标明确、指标清楚的研究环节，AI 已经能高速试错、运行、比较和改写。

第四，AI 开始触碰研究判断。Anthropic 做了一个内部对比：在真实研究会话中截取人类一度走偏的节点，让模型只看走偏前的信息并建议下一步，再由另一个能看到结局的模型判断谁的下一步更好。结果显示，2025 年 11 月的 Opus 4.5 被判优于人类选择的比例为 51%，2026 年 4 月 Anthropic 文中所称的 Mythos Preview 提升到 64%。

这组证据的关键不是“AI 已经取代研究负责人”，而是边界在移动：以前 AI 主要做执行；现在它越来越多地进入调试、实验、复盘、下一步建议。人类仍在设定问题、定义指标、选择方向，但这部分相对比例正在变小。

什么是 RSI 早期证据

RSI，recursive self-improvement，最严格的形态是：一个 AI 系统能够自主设计、训练、评估并开发出更强的下一代系统；下一代系统继续做同样的事，由此形成递归加速。

今天看到的不是完整 RSI，而是早期证据。

所谓早期证据，不是“模型已经有自我意志”，也不是“AI 已经脱离人类控制”。它指的是：AI 开始进入 AI 研发链条中的关键环节，并且这些环节原本会限制下一代 AI 的生产速度。

可以把 AI 研发拆成一个循环：

目标设定 -> 写代码 -> 跑实验 -> 看结果 -> 调参和修 bug -> 判断下一步 -> 形成下一代系统。

过去，AI 最多帮忙写一点代码。现在，它已经能批量写代码、调试训练问题、运行实验、优化训练流程、提出局部下一步建议。只要它参与的环节越靠近“下一代系统如何被做出来”，它就越接近 RSI 的早期条件。

所以这篇文章最该被严肃对待的地方，不是科幻式的“AI 醒了”，而是工程式的“研发闭环正在被 AI 吃掉一大段”。

讨论为什么会分裂

围绕这篇文章的讨论大致分成四类。

第一类是安全派。他们认为 Anthropic 给出的内部数据很重要，因为这是前沿实验室第一次把“AI 如何加速 AI 研发”讲得这么具体。对这类人来说，80% 代码、8 倍工程产出、研究判断提升，都是同一条线上的信号。

第二类是怀疑派。他们关注的是动机：一个前沿实验室呼吁全球放缓，会不会变成监管护城河？TechRadar 的报道就把这种质疑推到台前：安全叙事可能是真的，但它也可能天然有利于已经领先的玩家。

第三类是技术现实派。他们强调，AI-assisted AI development 不等于 full RSI。Claude 能写大量代码，仍然不代表它能选择正确研究目标；能跑实验，不代表它能定义哪些实验值得跑；能给下一步建议，不代表它有完整研究品味。

第四类是治理派。他们关心的不是 Anthropic 是否“真心”，而是 pause 这件事能不能被验证。结合原文的表述，pause 不是一个单边道德姿态，而是一个条件很重的机制：多国、多家前沿实验室、同等条件、可验证停止，并且要说明什么触发、什么解除、由谁裁定。没有这些条件，所谓暂停只会改变谁领先，而不会让系统更安全。

这些分歧其实都合理。因为大家讨论的不是同一个问题。

安全派在看能力曲线，怀疑派在看利益结构，技术现实派在看概念边界，治理派在看执行机制。统一起来看，才接近问题本体。

从统一系统观切入，真正的变量是什么

如果用作者统一系统观的视角来看，这篇文章不能只看“模型能力”，要看完整系统。

这个系统的基本单元，不是 Claude，不是 Anthropic，也不是某个 benchmark，而是一个改进循环：

当前模型 -> 研发任务 -> 代码和实验 -> 评估结果 -> 模型或工具链更新 -> 下一轮研发任务。

这个系统里流动的东西有五类：

代码差异；
实验结果；
研究判断；
算力资源；
信任与授权。

今天变化最快的是前两类：代码和实验。AI 让它们变得极快、极便宜、极容易并行。

但系统稳定性不取决于最快的部分，而取决于最慢、最难自动化、最容易出错的部分。Anthropic 原文自己也承认，人类优势暂时还在大局判断、研究品味、选择什么问题值得做、哪些结果值得信任、什么时候该停。

这就是真正的中枢。

如果执行层加速十倍，而验证层、目标层、治理层没有同步升级，系统不会自然变聪明，只会自然堆积更多未经消化的产物。

这也是为什么 successor-building loop 会放大 alignment 问题。

如果当前模型存在少量但真实的错位倾向，而下一代系统又由它参与设计、筛选、优化，那么错位不一定会被消除，反而可能被写进更深的工具链、评估偏好、训练流程和下一代模型结构里。更危险的是，随着循环变快，人类可能来不及理解哪一步把问题放大了。

所以 alignment 问题不是静态模型问题，而是代际传递问题。一个系统如果能生产后代，它的缺陷就不只是缺陷，而可能变成遗传。

pause 的真实含义

很多标题把 Anthropic 的 pause 写得像一句口号。但原文的表述更克制。

它说的是为世界保留一个选项：在必要时对前沿 AI 开发进行 slow or temporarily pause frontier AI development。它还强调，可信 pause 需要能验证别人确实停了或慢了，且坏行为者不能趁机秘密超车。

这不是“我方单方面停止”，也不是“永久冻结 AI”。它更像一个刹车系统：什么时候触发，什么时候解除，谁来判定，如何验证，如何防止作弊。

难点也正在这里。

AI 的训练不同于导弹井。训练输入是通用芯片、电力、数据中心和工程团队；训练运行可以隐藏；继续开发的收益极高；如果其他人停而自己不停，可能直接继承领先位置。也就是说，pause 的技术难度和博弈难度都很高。

所以真正的问题不是“要不要暂停”这么简单，而是：人类社会有没有能力建立一个可验证、可执行、不会被领先者或落后者滥用的暂停机制。

对 Agent OS 的启发

这篇文章对所有正在建设 Agent OS 或自动化工作流的人来说，启发很直接。

第一，执行层可以加速，但授权层不能自动上移。Agent 能写更多代码，不代表它有资格修改法统、调度器、发布边界和 review gate。

第二，能力提升不等于权限提升。权限提升必须来自外部验收、跨模型审查和人类确认，而不是来自 agent 自己证明自己更强。

第三，生产能力越强，越要保留暂停权。一个会自动扩展的系统，如果没有明确 stop condition，就会把局部效率当作整体正确。

第四，验收能力要优先建设。真正稀缺的不是“再多写一点”，而是能不能追溯来源、复跑结果、识别失败、回滚变更、保留人类可理解性。

第五，执行者不能成为最终审查者。AI 可以越来越多地参与生成，但不能用自己的生成速度证明自己应当获得最终解释权。

这也是我对 Anthropic 文章的最终判断：

它不是在宣布 AGI 到来，而是在提醒我们，AI 正在进入能力再生产系统。只要这个趋势继续，未来的核心矛盾就会从“谁能更快生产”转向“谁还能可靠验收、可靠暂停、可靠决定方向”。

AI 时代真正的治理能力，不是把刹车交给模型，也不是把方向盘完全握在人类幻想里。

而是在执行越来越自动化的同时，把目标、验证、暂停权和最终责任明确留在系统中枢。

参考

Anthropic Institute: When AI builds itself
TechRadar: Anthropic’s slowdown or pause debate and moat skepticism
Associated Press: Anthropic urges industry coordination to allow for a pause
Tom’s Hardware: Claude writes more than 80 percent of Anthropic merged code
Scientific American: Anthropic warns AI may soon begin recursive self-improvement