AI 的下一场竞争，不是记住更多上下文

2026-06-25 | 阅读 9 分钟

AI 记忆这个词，最近很容易被说成一个产品功能：保存聊天偏好、接入企业知识库、拉长上下文窗口，或者让 agent 有一个长期 memory store。

Sequoia 2026 年 6 月 24 日发布的 Engram 访谈，把这个问题往更深处推了一层。

Engram 联合创始人 Dan Biderman 和 Jessy Lin 在视频里讨论的，不只是“模型能不能记住更多东西”。他们真正关心的是：哪些知识应该一直停留在外部上下文里，哪些知识应该被模型学成自己的能力。

这两个问题看起来接近，系统形态却完全不同。

Sequoia 公开视频 00:24:44 附近，访谈进入 RAG 和 KV cache 瓶颈讨论的画面

画面来源：Sequoia Capital 公开视频 00:24:44 附近的 source frame，用于说明访谈进入 RAG 与 KV cache 机制讨论的时刻。

临时上下文，是租来的知识

今天大多数 AI 系统处理“记忆”的方式，本质上还是把知识临时搬到模型面前。

你可以拉长上下文窗口，把更多文档塞进 prompt。你也可以做 RAG，让系统先检索，再把相关片段拼进去。你还可以保存用户偏好、历史对话、项目笔记，让 agent 在需要时读回来。

这些方法都很有用，但它们有一个共同点：知识仍然在模型外部。每次回答之前，系统都要把相关内容重新找出来、重新排序、重新塞进上下文。

这像是在每次开会前，都给一个聪明但健忘的人重新发一整包资料。资料越多，他当场能读到的东西越多；但只要下一次还要再发一遍，它就不是一种真正持久的能力。

Engram 的反向问题是：如果某些企业知识会被反复使用，为什么它们永远只是临时上下文？

把知识学进模型，不等于死记硬背

在访谈中，Engram 把自己的技术方向描述为让模型“always training”。这不是只在预训练和后训练两个阶段学习，而是让模型持续吸收新的团队语境。

具体到工程层，受访者提到了 adapter fine-tuning、LoRA、prefix、稀疏结构等方向。粗略说，它们都在尝试把 workspace、代码库、对话、文档和工作习惯转化成某种内部状态，而不是每次都作为外部材料重新喂给模型。

这不是简单地让模型背下更多事实。

真正有价值的记忆，应该更像压缩后的判断力：哪些信息重要，哪些可以忘记，哪些流程代表团队长期偏好，哪些例外只适合一次性处理。人类专家也不是靠逐字记住所有资料来工作，而是把大量经验压缩成模式、直觉和边界感。

所以，AI 记忆的重点不是“记住更多”，而是“什么值得变成能力”。

为什么长上下文不一定是终点

这条路线背后有一个很硬的基础设施动机：长上下文很贵。

访谈里提到 KV cache 的例子：在长上下文推理中，模型为了继续生成，要保存大量 key-value 状态。上下文越长，这部分显存压力越大。受访者用一个极端例子说明，单篇长文的 cache 可能接近一个大模型权重本身的显存量级。

这也是为什么近 30 天里，KV cache compaction、long-horizon memory、RAG/CAG、agent memory 的讨论都在升温。比如 arXiv 上的 Still: Amortized KV Cache Compaction in a Single Forward Pass 就把 KV cache 称为长周期语言模型部署中的 memory bottleneck；X 上也有很多关于把 KV cache 大幅压缩的技术讨论。

换句话说，长上下文不是免费的“无限记忆”。它更像一张越来越贵的临时工作台。

如果某些知识每次都要被搬上工作台，系统自然会问：能不能把它们变成模型已经掌握的能力？

这和 RAG 不是简单替代关系

把知识学进模型，很容易被说成“RAG killer”。这句话有传播性，但并不准确。

RAG 仍然适合新鲜材料、长尾事实、可审计引用、频繁变化的外部信息。你不会希望模型把今天刚更新的政策、库存、合同条款都悄悄学进权重里，然后没人知道它到底学到了什么。

更合理的分工可能是：高频、稳定、经过验证的组织知识，逐步进入模型的长期能力；新鲜、具体、需要出处的材料，继续留在检索和上下文里。

这就像一个员工的工作方式。员工不应该每次都重新读公司手册才能知道基本流程，但面对最新合同、最新客户要求、最新监管文件时，他仍然应该查原文。

AI 记忆如果成立，也应该是这种分层系统，而不是把所有文档一次性烧进模型里。

私有模型的诱惑和风险

Jessy Lin 在 X 上解释 Engram 愿景时，说人们想要能随时间学习、记住细节、适应并像人一样互动的模型；她还提到 everyone gets a model，模型会持续更新。Amplify Partners 的投资备忘则把 Engram 描述为 memory dream team，并提到用离线 self-study 训练小型 KV cache 或类似记忆对象。

这个愿景很有吸引力：每个团队有一个真正理解自己工作方式的模型。它知道代码库的惯例，知道历史决策，知道哪些客户承诺不能轻易做，知道公司内部的语言和判断标准。

但这也把治理问题推到了更深处。

外部文档错了，可以改文档。检索库污染了，可以重建索引。prompt 写坏了，可以删掉一句话。可是如果模型已经把错误流程、过时事实、敏感信息或组织偏见学进内部状态，问题就不只是“查错了一条资料”。

你必须能回答更难的问题：谁授权模型学习这条知识？怎么证明它学对了？什么时候应该忘记？如果学错了，能不能回滚？如果员工或客户要求删除某类信息，模型的长期记忆如何配合？

没有这些控制权，AI 记忆就会从效率工具变成更隐蔽的风险容器。

“AI 做梦”只是一个隐喻

访谈中有一个很容易被传播的说法：模型需要像人一样拥有离线时间，去消化交互数据、探索能力边界、巩固记忆。这个说法很形象，也和“持续学习”问题有关。

但它不能被写成已经成熟的工程标准。

更稳妥的理解是：如果模型要从经验中学习，它可能需要一种不在实时对话里发生的消化过程。实时回答追求的是即时可用；离线学习追求的是把多次经验压缩成稳定能力。两者的优化目标不同。

这也是 Engram 路线最值得关注的地方：它没有把记忆当成一个聊天记录功能，而是把记忆看作训练、推理、压缩、评估和治理共同组成的系统。

真正的问题，是哪些东西应该变成能力

AI 记忆的竞争，表面上是上下文窗口、RAG、KV cache、adapter、私有模型之间的工程选择。

更底层的问题其实只有一个：什么知识值得从“临时材料”变成“持久能力”？

如果一条知识只是今天用一次，放在上下文里就够了。如果一条知识需要引用原文，最好继续留在可审计的外部系统里。如果一条知识代表团队长期工作方式，并且会在大量任务中反复出现，它才可能值得被压缩进模型。

所以，下一代 AI 记忆不应该只是更大的存储箱。

它应该像一个有边界的学习系统：能吸收，能压缩，能更新，也能被审计和叫停。

这才是 Engram 这类公司真正提出的问题。AI 的下一场竞争，可能不是谁能在窗口里塞进更多资料，而是谁能判断哪些资料应该变成能力，以及谁拥有让模型忘记的权利。

参考来源

Sequoia Capital: Memory and Continual Learning: Engram’s Dan Biderman and Jessy Lin
Jessy Lin: Engram co-founder thread on models that learn over time
Amplify Partners: Announcing our investment in Engram, the memory dream team
arXiv: Still: Amortized KV Cache Compaction in a Single Forward Pass
IBM Technology: RAG vs. CAG: Solving Knowledge Gaps in AI Models