AI 真正的拐点,不是会写代码,而是进入自我改进循环
从 Anthropic《When AI builds itself》和社区争议出发,用统一系统观拆解 RSI 早期证据、pause 机制和 Agent OS 的治理边界。
Anthropic 这篇《When AI builds itself》容易被读成一个惊悚标题:AI 要自己制造下一代 AI 了,世界是不是该立刻按暂停键?
我认为这不是它真正有价值的地方。
它真正有价值的地方,是把一个更底层的变化摊开了:AI 的角色正在从“执行人类给出的任务”,进入“参与生产下一代 AI 能力”的链条。这个链条一旦闭合,问题就不再是某个模型会不会写代码,而是人类还能不能掌握目标、验证、节奏和停止权。
换句话说,真正的拐点不是 AGI 宣告,而是能力再生产系统的形态变化。
原文到底说了什么
Anthropic 的原文很谨慎。它没有说完整的 recursive self-improvement 已经发生,也没有说这件事必然发生。原文明确承认:现在还没到 AI 完全自主设计、训练并开发自己继任者的阶段。
但它给出了几类早期证据。
第一,AI 在完成更长任务。原文引用 METR 长时任务评测,以及 SWE-bench、CORE-Bench 等软件工程和研究复现 benchmark,认为模型可独立完成任务的时间跨度在快速拉长。这里的重点不是某个 benchmark 分数,而是任务粒度从几分钟、几十分钟,逐步走向数小时乃至更长。
第二,AI 正在改变 AI 公司内部的软件生产。Anthropic 披露,截至 2026 年 5 月,按其 attribution 口径,Claude 署名了其生产代码库中超过 80% 的合并代码;原文还以 2026 年第二季度当季数据描述,典型工程师每天合并的代码量约为 2024 年的 8 倍。这里的“署名”不等于每一行都无需人类目标设定、审查或合并判断。
第三,AI 不只是写代码,还在做实验执行。原文提到,在一个固定目标的训练代码优化任务上,Claude 从 2025 年 5 月约 3 倍加速,提升到 2026 年 4 月约 52 倍加速。这个数字不能直接理解成现实训练成本也被压低 52 倍,但它说明:在目标明确、指标清楚的研究环节,AI 已经能高速试错、运行、比较和改写。
第四,AI 开始触碰研究判断。Anthropic 做了一个内部对比:在真实研究会话中截取人类一度走偏的节点,让模型只看走偏前的信息并建议下一步,再由另一个能看到结局的模型判断谁的下一步更好。结果显示,2025 年 11 月的 Opus 4.5 被判优于人类选择的比例为 51%,2026 年 4 月 Anthropic 文中所称的 Mythos Preview 提升到 64%。
这组证据的关键不是“AI 已经取代研究负责人”,而是边界在移动:以前 AI 主要做执行;现在它越来越多地进入调试、实验、复盘、下一步建议。人类仍在设定问题、定义指标、选择方向,但这部分相对比例正在变小。
什么是 RSI 早期证据
RSI,recursive self-improvement,最严格的形态是:一个 AI 系统能够自主设计、训练、评估并开发出更强的下一代系统;下一代系统继续做同样的事,由此形成递归加速。
今天看到的不是完整 RSI,而是早期证据。
所谓早期证据,不是“模型已经有自我意志”,也不是“AI 已经脱离人类控制”。它指的是:AI 开始进入 AI 研发链条中的关键环节,并且这些环节原本会限制下一代 AI 的生产速度。
可以把 AI 研发拆成一个循环:
目标设定 -> 写代码 -> 跑实验 -> 看结果 -> 调参和修 bug -> 判断下一步 -> 形成下一代系统。
过去,AI 最多帮忙写一点代码。现在,它已经能批量写代码、调试训练问题、运行实验、优化训练流程、提出局部下一步建议。只要它参与的环节越靠近“下一代系统如何被做出来”,它就越接近 RSI 的早期条件。
所以这篇文章最该被严肃对待的地方,不是科幻式的“AI 醒了”,而是工程式的“研发闭环正在被 AI 吃掉一大段”。
讨论为什么会分裂
围绕这篇文章的讨论大致分成四类。
第一类是安全派。他们认为 Anthropic 给出的内部数据很重要,因为这是前沿实验室第一次把“AI 如何加速 AI 研发”讲得这么具体。对这类人来说,80% 代码、8 倍工程产出、研究判断提升,都是同一条线上的信号。
第二类是怀疑派。他们关注的是动机:一个前沿实验室呼吁全球放缓,会不会变成监管护城河?TechRadar 的报道就把这种质疑推到台前:安全叙事可能是真的,但它也可能天然有利于已经领先的玩家。
第三类是技术现实派。他们强调,AI-assisted AI development 不等于 full RSI。Claude 能写大量代码,仍然不代表它能选择正确研究目标;能跑实验,不代表它能定义哪些实验值得跑;能给下一步建议,不代表它有完整研究品味。
第四类是治理派。他们关心的不是 Anthropic 是否“真心”,而是 pause 这件事能不能被验证。结合原文的表述,pause 不是一个单边道德姿态,而是一个条件很重的机制:多国、多家前沿实验室、同等条件、可验证停止,并且要说明什么触发、什么解除、由谁裁定。没有这些条件,所谓暂停只会改变谁领先,而不会让系统更安全。
这些分歧其实都合理。因为大家讨论的不是同一个问题。
安全派在看能力曲线,怀疑派在看利益结构,技术现实派在看概念边界,治理派在看执行机制。统一起来看,才接近问题本体。
从统一系统观切入,真正的变量是什么
如果用作者统一系统观的视角来看,这篇文章不能只看“模型能力”,要看完整系统。
这个系统的基本单元,不是 Claude,不是 Anthropic,也不是某个 benchmark,而是一个改进循环:
当前模型 -> 研发任务 -> 代码和实验 -> 评估结果 -> 模型或工具链更新 -> 下一轮研发任务。
这个系统里流动的东西有五类:
- 代码差异;
- 实验结果;
- 研究判断;
- 算力资源;
- 信任与授权。
今天变化最快的是前两类:代码和实验。AI 让它们变得极快、极便宜、极容易并行。
但系统稳定性不取决于最快的部分,而取决于最慢、最难自动化、最容易出错的部分。Anthropic 原文自己也承认,人类优势暂时还在大局判断、研究品味、选择什么问题值得做、哪些结果值得信任、什么时候该停。
这就是真正的中枢。
如果执行层加速十倍,而验证层、目标层、治理层没有同步升级,系统不会自然变聪明,只会自然堆积更多未经消化的产物。
这也是为什么 successor-building loop 会放大 alignment 问题。
如果当前模型存在少量但真实的错位倾向,而下一代系统又由它参与设计、筛选、优化,那么错位不一定会被消除,反而可能被写进更深的工具链、评估偏好、训练流程和下一代模型结构里。更危险的是,随着循环变快,人类可能来不及理解哪一步把问题放大了。
所以 alignment 问题不是静态模型问题,而是代际传递问题。一个系统如果能生产后代,它的缺陷就不只是缺陷,而可能变成遗传。
pause 的真实含义
很多标题把 Anthropic 的 pause 写得像一句口号。但原文的表述更克制。
它说的是为世界保留一个选项:在必要时对前沿 AI 开发进行 slow or temporarily pause frontier AI development。它还强调,可信 pause 需要能验证别人确实停了或慢了,且坏行为者不能趁机秘密超车。
这不是“我方单方面停止”,也不是“永久冻结 AI”。它更像一个刹车系统:什么时候触发,什么时候解除,谁来判定,如何验证,如何防止作弊。
难点也正在这里。
AI 的训练不同于导弹井。训练输入是通用芯片、电力、数据中心和工程团队;训练运行可以隐藏;继续开发的收益极高;如果其他人停而自己不停,可能直接继承领先位置。也就是说,pause 的技术难度和博弈难度都很高。
所以真正的问题不是“要不要暂停”这么简单,而是:人类社会有没有能力建立一个可验证、可执行、不会被领先者或落后者滥用的暂停机制。
对 Agent OS 的启发
这篇文章对所有正在建设 Agent OS 或自动化工作流的人来说,启发很直接。
第一,执行层可以加速,但授权层不能自动上移。Agent 能写更多代码,不代表它有资格修改法统、调度器、发布边界和 review gate。
第二,能力提升不等于权限提升。权限提升必须来自外部验收、跨模型审查和人类确认,而不是来自 agent 自己证明自己更强。
第三,生产能力越强,越要保留暂停权。一个会自动扩展的系统,如果没有明确 stop condition,就会把局部效率当作整体正确。
第四,验收能力要优先建设。真正稀缺的不是“再多写一点”,而是能不能追溯来源、复跑结果、识别失败、回滚变更、保留人类可理解性。
第五,执行者不能成为最终审查者。AI 可以越来越多地参与生成,但不能用自己的生成速度证明自己应当获得最终解释权。
这也是我对 Anthropic 文章的最终判断:
它不是在宣布 AGI 到来,而是在提醒我们,AI 正在进入能力再生产系统。只要这个趋势继续,未来的核心矛盾就会从“谁能更快生产”转向“谁还能可靠验收、可靠暂停、可靠决定方向”。
AI 时代真正的治理能力,不是把刹车交给模型,也不是把方向盘完全握在人类幻想里。
而是在执行越来越自动化的同时,把目标、验证、暂停权和最终责任明确留在系统中枢。
参考
- Anthropic Institute: When AI builds itself
- TechRadar: Anthropic’s slowdown or pause debate and moat skepticism
- Associated Press: Anthropic urges industry coordination to allow for a pause
- Tom’s Hardware: Claude writes more than 80 percent of Anthropic merged code
- Scientific American: Anthropic warns AI may soon begin recursive self-improvement