AI 推理真正的护城河，不在一颗芯片里

2026-07-02 | 阅读 10 分钟

今天讨论 AI 基建，最容易问的问题是：谁有更多 GPU？

这个问题当然重要。没有算力，模型训练和推理都无法展开。但进入推理时代以后，只问 GPU 数量已经不够了。真正拉开差距的，越来越像一座工厂：模型结构、推理软件、芯片、内存、数据中心电力、客户延迟要求和资本成本，必须被调成同一台机器。

Sequoia 最近发布了一支访谈，主角是 SemiAnalysis 的 Dylan Patel，标题是《Why Hardware-Software Co-Design Is AI’s Real 100x》。这支视频最值得看的地方，不是某个芯片路线会不会赢，而是它把 AI 推理的竞争单位从“芯片”改成了“系统”。

如果这个判断成立，AI 基建的护城河就不会只在一颗芯片里。

它会藏在模型、软件、硬件和数据中心之间的配合方式里。

Dylan Patel 在 Sequoia 访谈中讨论 hardware-software co-design，00:28:21 附近

画面来源：Sequoia Capital YouTube 视频《Why Hardware-Software Co-Design Is AI’s Real 100x: Dylan Patel of SemiAnalysis》00:28:21 附近。

静态 benchmark 正在失效

Patel 在访谈里反复强调一个问题：AI 推理 benchmark 不能只看一个静态点。

因为推理不是“跑一次模型，给一个分数”。真实推理服务要同时处理几件事：单位成本、吞吐量、用户等待时间、输出质量、交互速度、负载峰谷、上下文长度、硬件利用率，以及模型版本不断变化带来的漂移。

今天一个模型在某块芯片上表现很好，不代表三个月后仍然如此。模型架构变了，kernel 优化变了，driver 变了，serving stack 变了，客户负载也变了。一个静态 benchmark 很快会变成旧照片。

这也是 SemiAnalysis 推 InferenceX / InferenceMAX 这类动态 benchmark 的背景：行业需要持续观察推理服务在成本、延迟和吞吐之间的 Pareto curve，而不是只截取某个最漂亮的点。

这个变化很关键。

训练时代，很多人会把算力竞争理解成“谁先堆出更大的集群”。推理时代，竞争开始更接近运营问题：同样质量附近，谁能让每一次输出更便宜、更快、更稳定，同时还不牺牲交互体验。

这不是单个芯片参数能回答的问题。

Co-design 的意思，不是硬件压倒软件

“hardware-software co-design” 很容易被误读成“硬件公司终于要重新主导一切”。

更准确地说，它是反过来提醒我们：硬件不能孤立地赢。

模型结构会决定硬件该擅长什么。稠密模型、稀疏模型、Mixture-of-Experts、长上下文、多模态、推理时搜索，每一种形态都会改变算子、内存访问、batch 策略和通信压力。软件栈会决定这些压力如何被编译、调度和执行。硬件再把带宽、片上内存、互联、能效和成本约束加回去。

如果这些层各自优化，结果常常是局部很强，整体不顺。

Patel 在视频里谈到 DeepSeek、Hopper、TPU、Cerebras 和 CUDA moat 时，核心不是给出一个永久胜负表，而是说明同一个行业正在出现更细的适配关系：某些模型形态更适合某些硬件，某些硬件路线会反过来影响模型设计，某些软件生态会降低迁移成本，也会制造惯性。

所以 co-design 的价值不是一句“专用芯片必胜”。

它真正的价值是减少错配。

模型不要假装硬件不存在；硬件也不要假装模型永远长一个样子。软件、compiler、kernel、serving scheduler 和数据中心容量，都要进入同一张设计图。

CUDA 护城河被拆开了，但没有消失

视频里另一个值得保留的判断，是 CUDA moat。

过去很多 AI 基建讨论会把 CUDA 当成一个整体词：Nvidia 赢，因为 CUDA 强。但进入推理工厂视角以后，这个词需要被拆开。

CUDA 里有开发者习惯，有库和工具链，有 kernel 生态，有调试经验，有团队已有代码，也有招聘和组织惯性。这些东西仍然很强。它们不会因为出现几款新芯片就自动消失。

但它也确实开始被部分拆解。

AI coding tools 会降低迁移和重写成本。开源 compiler、serving framework 和 benchmark 会让更多硬件路线获得被验证的机会。模型公司如果足够大，也会愿意为自己的模型形态定制更深的硬件/软件路径。

这意味着 CUDA 的护城河不是“没了”，而是从一堵墙变成了很多具体成本。

哪些成本仍然很高？

哪些成本正在下降？

哪些应用值得为了推理成本去跨过去？

这会比一句“CUDA 仍然无敌”或“CUDA 已经结束”更接近现实。

推理工厂会把竞争推到数据中心

当推理成本被持续压低，瓶颈不会消失，只会迁移。

它会迁移到电力、散热、机柜、资本成本、集群利用率和客户需求曲线上。

这也是为什么视频后半段谈到 neocloud、hyperscaler 和数据中心时，听起来不像一个单纯芯片话题。AI 推理如果真的成为一个大规模服务市场，它就会更像工业生产：你要有设备，要有能源，要有订单，要有调度，要有融资结构，还要知道什么时候不该继续生产。

“推理比石油更大”这类判断当然需要谨慎看待。它更像一种强烈的方向性表达：如果 AI 输出成为软件、客服、搜索、编程、设计、数据分析和企业流程的基础生产资料，那么推理服务就会变成一种新型基础设施。

但基础设施不是只靠热情建设。

它需要容量纪律。

谁拥有数据中心？谁承担闲置风险？谁在高峰期拿到算力？谁决定某个 agent 调用值得继续烧？谁把 benchmark 从营销材料变成采购依据？

这些问题会决定推理工厂是不是赚钱，而不只是显得先进。

便宜推理需要停止权

推理成本下降听起来总是好事。

但越便宜的能力，越容易被无边界使用。

如果一个组织只知道“模型调用更便宜了”，却不知道哪些调用带来真实价值，哪些调用只是制造更多中间文本和自动化噪音，那么成本下降会被调用量吞掉。最后看起来每次推理都便宜，整体账单却更大，系统也更难审计。

所以推理工厂的治理问题，不只是谁控制模型输出。

还包括谁控制成本、容量和停止权。

一个团队需要知道：哪些任务必须用最强模型，哪些可以路由到小模型；哪些 latency 真的影响用户体验，哪些只是工程自我感动；哪些 benchmark 能代表业务负载，哪些只是漂亮演示；什么时候继续扩容，什么时候停止低价值调用。

这也是 co-design 最容易被忽略的一层：它不是单纯追求更高性能，而是把性能、成本、延迟和用途绑在一起。

没有用途边界，100x 也可能只是更快地产生浪费。

护城河在跨层配合里

Dylan Patel 这支访谈给我的最大提醒是：AI 基建正在从“资源争夺”进入“系统编排”。

GPU 仍然重要，先进封装仍然重要，HBM、互联、电力和数据中心仍然重要。但如果只盯着硬件清单，就会错过推理时代真正的变化。

未来的 AI 公司不只是调用模型。

它们会选择模型形态，选择 serving stack，选择硬件路线，选择云和数据中心，选择延迟目标，选择 benchmark，也选择哪些调用应该被停止。

这套选择合在一起，才是推理工厂。

所以，AI 推理真正的护城河，不在一颗芯片里。

它在跨层配合里：模型知道硬件，软件榨干硬件，数据中心承接负载，资本结构支撑容量，而业务知道什么时候该调用，什么时候该停。

芯片是工厂里的关键设备。

但赢下推理时代的，不一定是只拥有设备最多的人。

更可能是最早把设备、软件、模型和需求调成一套系统的人。

参考来源

Sequoia Capital: Why Hardware-Software Co-Design Is AI’s Real 100x: Dylan Patel of SemiAnalysis
SemiAnalysis: InferenceMAX Open Source Inference Benchmark
SemiAnalysis: InferenceX
PodcastAlpha / BigGo: Why Hardware-Software Co-Design Is AI’s Real 100x summary
StartupHub: Hardware-Software Co-Design: AI’s 100x Multiplier