Claude 会看 NMR 了,但 AI 科学家真正缺的是工具层
过去十天内,Anthropic Science 连续放出两个很容易被误读的信号。
第一个信号来自化学。Anthropic 让 Claude Opus 4.7 去做 NMR 谱图相关任务,和 ChemDraw、MestReNova 这类化学家日常使用的软件比较。结果显示,在这组小样本任务里,Opus 4.7 对氢谱化学位移的平均误差约 0.079 ppm;碳谱上也和 MestReNova 接近。更有意思的是反向任务:给它高分辨质谱和一维 NMR 数据,让它推回可能的分子结构。
第二个信号来自生物。Anthropic 和合作者让一批科学研究 agent 去 NCBI Virus 检索病毒序列数据。没有专门工具层时,这些 agent 的表现非常不稳定:同一个查询,模型可以给出看似合理、但数量差很多的数据集。加上 gget virus 这个确定性检索层后,所有 agent 的准确率都升到 90% 以上,最高到 99.7%。
把两件事放在一起看,结论不是“Claude 已经能替代科学家”。
更准确的判断是:AI 做科学的瓶颈,正在从模型是否聪明,转向科学工作流是否能被机器可靠执行、复现和审计。
NMR 不是魔法,而是表征翻译
化学家的日常工作里,有大量“翻译”。
一个分子可以是一张结构图,可以是一串 SMILES,可以是一段论文方法,可以是一组 NMR peak,也可以是数据库里的条目。不同表示背后指向同一个化学对象,但每一种表示都有自己的语法和陷阱。
这就是 Anthropic 这次 NMR 评估真正重要的地方。
Claude 不是突然掌握了所有化学。它展示的是一种更窄、更实际的能力:把化学家已经拿在手里的仪器读数、分子式、结构线索和文本说明放在同一个推理空间里,帮人更快完成表征之间的对齐。
Forward prediction 里,传统软件做的是从已知结构预测谱图。Inverse elucidation 更难:从谱图和质谱数据反推出可能结构。Anthropic 的白皮书里,Opus 4.7 对 8 个相对简单结构每次都恢复成功;对 7 个更复杂结构,则需要提供 starting-material hint,表现才稳定下来。
这很强,但边界也很清楚。
样本只有 20 个 forward compound 和 15 个 inverse problem;2D NMR、stereochemistry、复杂天然产物都不在范围内;溶剂和 scaffold 覆盖也有限。更重要的是,这些数字来自 Anthropic 自己发布的评估和白皮书,还不是第三方复现实验。Anthropic 自己也说,这些结果应当看成 indicative,而不是完整精确的化学软件替代结论。
所以这件事最值得关注的,不是“Claude 打败了 ChemDraw”。
而是通用模型开始能在科学家的表征转换缝隙里工作:读结构、读谱图、读方法、读 supporting information,再把它们接成一个可检查的候选解释。
这会改变许多低效率环节,但不会取消化学判断。
生物 agent 的反例更关键
如果只看 NMR,容易得到一个过热结论:模型继续变强,科学自动化自然发生。
生物 agent 的结果给了一个冷静反例。
NCBI Virus 是病毒序列数据的重要入口。研究人员要做病毒监测、诊断 assay 设计、疫苗相关分析、训练蛋白模型,往往第一步就是从这类公共数据库里检索正确的数据集。
问题是,数据库界面对人类研究者可用,不代表对 agent 可执行。
很多过滤逻辑藏在网页交互里;API 不一定暴露和网页一致的语义;分页、元数据字段、GenBank 记录、RefSeq/GenBank 来源、序列完整性、宿主、地区、日期范围,都可能让程序化检索变成一堆临时脚本。
Anthropic 文章里的例子很直接:同样让 Sonnet 4 检索符合条件的 Ebolavirus 序列,预期是 266 条,它三次可以返回 106、15、5。每个答案都像是完成了任务,但没有一个能让下游科学分析放心。这个例子来自 Anthropic Science 文章和相关预印本,真正重要的不是某个模型排名,而是数据检索层本身缺乏可重复路径。
这不是简单的“模型不够聪明”。
更像是模型开进了一座为行人设计的旧城:它知道目的地,但道路没有清晰车道,路标不一致,很多转弯只能靠本地经验。
gget virus 做的事,就是给这座旧城修一条可复现的工具路。它把 NCBI Virus 风格的过滤、REST、Datasets、E-utilities、批量下载、GenBank metadata、日志输出组合成一个确定性检索层。agent 不再每次重新摸索网页和 API,而是调用一个可审计的操作。
结果很说明问题:模型差距被压窄了,便宜模型也能更可靠,重复运行不再大幅漂移。
科学 agent 需要“无聊”的底座
科学发现当然需要创造力。
模型可以提出假设、设计对照、总结文献、比较机制、生成候选解释。但在创造力下面,必须有一层很无聊的东西:稳定标识符、清晰 schema、可调用接口、完整日志、确定性检索、可重复 benchmark。
没有这层底座,agent 的问题不是不会说话,而是太会说话。
它会给出一个流畅答案。它会解释自己做了什么。它会生成看起来合理的图表和结论。但如果底层数据少抓了、重复了、过滤错了、分页断了,后面的推理越漂亮,风险越高。
这就是 AI for science 和普通问答的差别。
普通问答错了,用户可能重新问。科学工作流错在第一步,后面可能影响 outbreak timing、diagnostic coverage、molecular assignment、training dataset,甚至让人把一个可复现问题误以为是科学结论。
所以科学 agent 的产品形态,不会只是“一个更强聊天窗口”。
它更像一个系统:模型在上层推理,下面接仪器读数、领域数据库、专业软件、版本化数据、权限、日志、审计和人类专家确认点。
创业和工程机会也在这里
这对做 AI 产品的人有一个很实际的提示:不要只盯着模型能力曲线。
很多真正有价值的科学 AI 公司,可能不是训练另一个更大的 foundation model,而是把某个领域最麻烦的工作流变成 agent 可执行、可验证、可复现的工具层。
化学里,是结构图、SMILES、NMR、HRMS、论文 SI、专利、反应条件之间的翻译。
生物里,是数据库、metadata、coordinate system、sequence retrieval、pipeline logs 和下游分析之间的确定性连接。
这类东西看起来没有模型发布那么性感,但它们决定 AI 能不能进入真实实验室。
Anthropic 的两个例子共同说明:模型变强之后,短板会转移。过去我们问“模型懂不懂科学”。现在更该问:
- 它能不能拿到正确数据?
- 它调用的工具有没有明确语义?
- 它的结果能不能复现?
- 它出错时,科学家能不能看见错在哪里?
- 它什么时候必须停下来交给人判断?
这些问题回答不清,模型越强,越容易把错误包装得更像正确。
AI 科学家的核心不是替代,而是可验证
未来的科学 agent 不会简单替代科学家。
更可能发生的是:它们先接管那些耗时、重复、跨表示、跨数据库、跨格式的工作,把科学家的注意力从“我怎么把数据拿对”释放到“这个结果说明什么”。
Claude 会看 NMR,是因为模型开始能读懂科学表征。
gget virus 让 biology agents 稳定,是因为科学工作流终于有了一段机器能可靠行驶的路。
这两个方向合起来,才是 AI for science 的真正入口。
不是让模型每次都在迷宫里即兴发挥,而是把科学工作流变成可执行、可检查、可复现的系统。
AI 科学家的核心,不是更像人。
是每一步都能被人验证。
参考
- Anthropic Science: Making Claude a chemist
- Anthropic white paper: Claude vs. ChemDraw on NMR prediction and structure elucidation
- Anthropic Science: Paving the way for agents in biology
- arXiv: Deterministic access to global viral sequence data enables robust agentic scientific discovery
- NCBI Virus: official portal
- Hacker News: Making Claude a chemist
- Hacker News: Paving the Way for Agents in Biology