AI 的下一场竞争,不是记住更多上下文

AI 的下一场竞争,不是记住更多上下文

| 阅读 9 分钟

AI 记忆这个词,最近很容易被说成一个产品功能:保存聊天偏好、接入企业知识库、拉长上下文窗口,或者让 agent 有一个长期 memory store。

Sequoia 2026 年 6 月 24 日发布的 Engram 访谈,把这个问题往更深处推了一层。

Engram 联合创始人 Dan Biderman 和 Jessy Lin 在视频里讨论的,不只是“模型能不能记住更多东西”。他们真正关心的是:哪些知识应该一直停留在外部上下文里,哪些知识应该被模型学成自己的能力。

这两个问题看起来接近,系统形态却完全不同。

Sequoia 公开视频 00:24:44 附近,访谈进入 RAG 和 KV cache 瓶颈讨论的画面

画面来源:Sequoia Capital 公开视频 00:24:44 附近的 source frame,用于说明访谈进入 RAG 与 KV cache 机制讨论的时刻。

临时上下文,是租来的知识

今天大多数 AI 系统处理“记忆”的方式,本质上还是把知识临时搬到模型面前。

你可以拉长上下文窗口,把更多文档塞进 prompt。你也可以做 RAG,让系统先检索,再把相关片段拼进去。你还可以保存用户偏好、历史对话、项目笔记,让 agent 在需要时读回来。

这些方法都很有用,但它们有一个共同点:知识仍然在模型外部。每次回答之前,系统都要把相关内容重新找出来、重新排序、重新塞进上下文。

这像是在每次开会前,都给一个聪明但健忘的人重新发一整包资料。资料越多,他当场能读到的东西越多;但只要下一次还要再发一遍,它就不是一种真正持久的能力。

Engram 的反向问题是:如果某些企业知识会被反复使用,为什么它们永远只是临时上下文?

把知识学进模型,不等于死记硬背

在访谈中,Engram 把自己的技术方向描述为让模型“always training”。这不是只在预训练和后训练两个阶段学习,而是让模型持续吸收新的团队语境。

具体到工程层,受访者提到了 adapter fine-tuning、LoRA、prefix、稀疏结构等方向。粗略说,它们都在尝试把 workspace、代码库、对话、文档和工作习惯转化成某种内部状态,而不是每次都作为外部材料重新喂给模型。

这不是简单地让模型背下更多事实。

真正有价值的记忆,应该更像压缩后的判断力:哪些信息重要,哪些可以忘记,哪些流程代表团队长期偏好,哪些例外只适合一次性处理。人类专家也不是靠逐字记住所有资料来工作,而是把大量经验压缩成模式、直觉和边界感。

所以,AI 记忆的重点不是“记住更多”,而是“什么值得变成能力”。

为什么长上下文不一定是终点

这条路线背后有一个很硬的基础设施动机:长上下文很贵。

访谈里提到 KV cache 的例子:在长上下文推理中,模型为了继续生成,要保存大量 key-value 状态。上下文越长,这部分显存压力越大。受访者用一个极端例子说明,单篇长文的 cache 可能接近一个大模型权重本身的显存量级。

这也是为什么近 30 天里,KV cache compaction、long-horizon memory、RAG/CAG、agent memory 的讨论都在升温。比如 arXiv 上的 Still: Amortized KV Cache Compaction in a Single Forward Pass 就把 KV cache 称为长周期语言模型部署中的 memory bottleneck;X 上也有很多关于把 KV cache 大幅压缩的技术讨论。

换句话说,长上下文不是免费的“无限记忆”。它更像一张越来越贵的临时工作台。

如果某些知识每次都要被搬上工作台,系统自然会问:能不能把它们变成模型已经掌握的能力?

这和 RAG 不是简单替代关系

把知识学进模型,很容易被说成“RAG killer”。这句话有传播性,但并不准确。

RAG 仍然适合新鲜材料、长尾事实、可审计引用、频繁变化的外部信息。你不会希望模型把今天刚更新的政策、库存、合同条款都悄悄学进权重里,然后没人知道它到底学到了什么。

更合理的分工可能是:高频、稳定、经过验证的组织知识,逐步进入模型的长期能力;新鲜、具体、需要出处的材料,继续留在检索和上下文里。

这就像一个员工的工作方式。员工不应该每次都重新读公司手册才能知道基本流程,但面对最新合同、最新客户要求、最新监管文件时,他仍然应该查原文。

AI 记忆如果成立,也应该是这种分层系统,而不是把所有文档一次性烧进模型里。

私有模型的诱惑和风险

Jessy Lin 在 X 上解释 Engram 愿景时,说人们想要能随时间学习、记住细节、适应并像人一样互动的模型;她还提到 everyone gets a model,模型会持续更新。Amplify Partners 的投资备忘则把 Engram 描述为 memory dream team,并提到用离线 self-study 训练小型 KV cache 或类似记忆对象。

这个愿景很有吸引力:每个团队有一个真正理解自己工作方式的模型。它知道代码库的惯例,知道历史决策,知道哪些客户承诺不能轻易做,知道公司内部的语言和判断标准。

但这也把治理问题推到了更深处。

外部文档错了,可以改文档。检索库污染了,可以重建索引。prompt 写坏了,可以删掉一句话。可是如果模型已经把错误流程、过时事实、敏感信息或组织偏见学进内部状态,问题就不只是“查错了一条资料”。

你必须能回答更难的问题:谁授权模型学习这条知识?怎么证明它学对了?什么时候应该忘记?如果学错了,能不能回滚?如果员工或客户要求删除某类信息,模型的长期记忆如何配合?

没有这些控制权,AI 记忆就会从效率工具变成更隐蔽的风险容器。

“AI 做梦”只是一个隐喻

访谈中有一个很容易被传播的说法:模型需要像人一样拥有离线时间,去消化交互数据、探索能力边界、巩固记忆。这个说法很形象,也和“持续学习”问题有关。

但它不能被写成已经成熟的工程标准。

更稳妥的理解是:如果模型要从经验中学习,它可能需要一种不在实时对话里发生的消化过程。实时回答追求的是即时可用;离线学习追求的是把多次经验压缩成稳定能力。两者的优化目标不同。

这也是 Engram 路线最值得关注的地方:它没有把记忆当成一个聊天记录功能,而是把记忆看作训练、推理、压缩、评估和治理共同组成的系统。

真正的问题,是哪些东西应该变成能力

AI 记忆的竞争,表面上是上下文窗口、RAG、KV cache、adapter、私有模型之间的工程选择。

更底层的问题其实只有一个:什么知识值得从“临时材料”变成“持久能力”?

如果一条知识只是今天用一次,放在上下文里就够了。如果一条知识需要引用原文,最好继续留在可审计的外部系统里。如果一条知识代表团队长期工作方式,并且会在大量任务中反复出现,它才可能值得被压缩进模型。

所以,下一代 AI 记忆不应该只是更大的存储箱。

它应该像一个有边界的学习系统:能吸收,能压缩,能更新,也能被审计和叫停。

这才是 Engram 这类公司真正提出的问题。AI 的下一场竞争,可能不是谁能在窗口里塞进更多资料,而是谁能判断哪些资料应该变成能力,以及谁拥有让模型忘记的权利。

参考来源

💬 评论