Claude 会看 NMR 了，但 AI 科学家真正缺的是工具层

2026-06-14 | 阅读 10 分钟

过去十天内，Anthropic Science 连续放出两个很容易被误读的信号。

第一个信号来自化学。Anthropic 让 Claude Opus 4.7 去做 NMR 谱图相关任务，和 ChemDraw、MestReNova 这类化学家日常使用的软件比较。结果显示，在这组小样本任务里，Opus 4.7 对氢谱化学位移的平均误差约 0.079 ppm；碳谱上也和 MestReNova 接近。更有意思的是反向任务：给它高分辨质谱和一维 NMR 数据，让它推回可能的分子结构。

第二个信号来自生物。Anthropic 和合作者让一批科学研究 agent 去 NCBI Virus 检索病毒序列数据。没有专门工具层时，这些 agent 的表现非常不稳定：同一个查询，模型可以给出看似合理、但数量差很多的数据集。加上 gget virus 这个确定性检索层后，所有 agent 的准确率都升到 90% 以上，最高到 99.7%。

把两件事放在一起看，结论不是“Claude 已经能替代科学家”。

更准确的判断是：AI 做科学的瓶颈，正在从模型是否聪明，转向科学工作流是否能被机器可靠执行、复现和审计。

NMR 不是魔法，而是表征翻译

化学家的日常工作里，有大量“翻译”。

一个分子可以是一张结构图，可以是一串 SMILES，可以是一段论文方法，可以是一组 NMR peak，也可以是数据库里的条目。不同表示背后指向同一个化学对象，但每一种表示都有自己的语法和陷阱。

这就是 Anthropic 这次 NMR 评估真正重要的地方。

Claude 不是突然掌握了所有化学。它展示的是一种更窄、更实际的能力：把化学家已经拿在手里的仪器读数、分子式、结构线索和文本说明放在同一个推理空间里，帮人更快完成表征之间的对齐。

Forward prediction 里，传统软件做的是从已知结构预测谱图。Inverse elucidation 更难：从谱图和质谱数据反推出可能结构。Anthropic 的白皮书里，Opus 4.7 对 8 个相对简单结构每次都恢复成功；对 7 个更复杂结构，则需要提供 starting-material hint，表现才稳定下来。

这很强，但边界也很清楚。

样本只有 20 个 forward compound 和 15 个 inverse problem；2D NMR、stereochemistry、复杂天然产物都不在范围内；溶剂和 scaffold 覆盖也有限。更重要的是，这些数字来自 Anthropic 自己发布的评估和白皮书，还不是第三方复现实验。Anthropic 自己也说，这些结果应当看成 indicative，而不是完整精确的化学软件替代结论。

所以这件事最值得关注的，不是“Claude 打败了 ChemDraw”。

而是通用模型开始能在科学家的表征转换缝隙里工作：读结构、读谱图、读方法、读 supporting information，再把它们接成一个可检查的候选解释。

这会改变许多低效率环节，但不会取消化学判断。

生物 agent 的反例更关键

如果只看 NMR，容易得到一个过热结论：模型继续变强，科学自动化自然发生。

生物 agent 的结果给了一个冷静反例。

NCBI Virus 是病毒序列数据的重要入口。研究人员要做病毒监测、诊断 assay 设计、疫苗相关分析、训练蛋白模型，往往第一步就是从这类公共数据库里检索正确的数据集。

问题是，数据库界面对人类研究者可用，不代表对 agent 可执行。

很多过滤逻辑藏在网页交互里；API 不一定暴露和网页一致的语义；分页、元数据字段、GenBank 记录、RefSeq/GenBank 来源、序列完整性、宿主、地区、日期范围，都可能让程序化检索变成一堆临时脚本。

Anthropic 文章里的例子很直接：同样让 Sonnet 4 检索符合条件的 Ebolavirus 序列，预期是 266 条，它三次可以返回 106、15、5。每个答案都像是完成了任务，但没有一个能让下游科学分析放心。这个例子来自 Anthropic Science 文章和相关预印本，真正重要的不是某个模型排名，而是数据检索层本身缺乏可重复路径。

这不是简单的“模型不够聪明”。

更像是模型开进了一座为行人设计的旧城：它知道目的地，但道路没有清晰车道，路标不一致，很多转弯只能靠本地经验。

gget virus 做的事，就是给这座旧城修一条可复现的工具路。它把 NCBI Virus 风格的过滤、REST、Datasets、E-utilities、批量下载、GenBank metadata、日志输出组合成一个确定性检索层。agent 不再每次重新摸索网页和 API，而是调用一个可审计的操作。

结果很说明问题：模型差距被压窄了，便宜模型也能更可靠，重复运行不再大幅漂移。

科学 agent 需要“无聊”的底座

科学发现当然需要创造力。

模型可以提出假设、设计对照、总结文献、比较机制、生成候选解释。但在创造力下面，必须有一层很无聊的东西：稳定标识符、清晰 schema、可调用接口、完整日志、确定性检索、可重复 benchmark。

没有这层底座，agent 的问题不是不会说话，而是太会说话。

它会给出一个流畅答案。它会解释自己做了什么。它会生成看起来合理的图表和结论。但如果底层数据少抓了、重复了、过滤错了、分页断了，后面的推理越漂亮，风险越高。

这就是 AI for science 和普通问答的差别。

普通问答错了，用户可能重新问。科学工作流错在第一步，后面可能影响 outbreak timing、diagnostic coverage、molecular assignment、training dataset，甚至让人把一个可复现问题误以为是科学结论。

所以科学 agent 的产品形态，不会只是“一个更强聊天窗口”。

它更像一个系统：模型在上层推理，下面接仪器读数、领域数据库、专业软件、版本化数据、权限、日志、审计和人类专家确认点。

创业和工程机会也在这里

这对做 AI 产品的人有一个很实际的提示：不要只盯着模型能力曲线。

很多真正有价值的科学 AI 公司，可能不是训练另一个更大的 foundation model，而是把某个领域最麻烦的工作流变成 agent 可执行、可验证、可复现的工具层。

化学里，是结构图、SMILES、NMR、HRMS、论文 SI、专利、反应条件之间的翻译。

生物里，是数据库、metadata、coordinate system、sequence retrieval、pipeline logs 和下游分析之间的确定性连接。

这类东西看起来没有模型发布那么性感，但它们决定 AI 能不能进入真实实验室。

Anthropic 的两个例子共同说明：模型变强之后，短板会转移。过去我们问“模型懂不懂科学”。现在更该问：

它能不能拿到正确数据？
它调用的工具有没有明确语义？
它的结果能不能复现？
它出错时，科学家能不能看见错在哪里？
它什么时候必须停下来交给人判断？

这些问题回答不清，模型越强，越容易把错误包装得更像正确。

AI 科学家的核心不是替代，而是可验证

未来的科学 agent 不会简单替代科学家。

更可能发生的是：它们先接管那些耗时、重复、跨表示、跨数据库、跨格式的工作，把科学家的注意力从“我怎么把数据拿对”释放到“这个结果说明什么”。

Claude 会看 NMR，是因为模型开始能读懂科学表征。

gget virus 让 biology agents 稳定，是因为科学工作流终于有了一段机器能可靠行驶的路。

这两个方向合起来，才是 AI for science 的真正入口。

不是让模型每次都在迷宫里即兴发挥，而是把科学工作流变成可执行、可检查、可复现的系统。

AI 科学家的核心，不是更像人。

是每一步都能被人验证。

参考

Anthropic Science: Making Claude a chemist
Anthropic white paper: Claude vs. ChemDraw on NMR prediction and structure elucidation
Anthropic Science: Paving the way for agents in biology
arXiv: Deterministic access to global viral sequence data enables robust agentic scientific discovery
NCBI Virus: official portal
Hacker News: Making Claude a chemist
Hacker News: Paving the Way for Agents in Biology