AI 推理真正的护城河,不在一颗芯片里
今天讨论 AI 基建,最容易问的问题是:谁有更多 GPU?
这个问题当然重要。没有算力,模型训练和推理都无法展开。但进入推理时代以后,只问 GPU 数量已经不够了。真正拉开差距的,越来越像一座工厂:模型结构、推理软件、芯片、内存、数据中心电力、客户延迟要求和资本成本,必须被调成同一台机器。
Sequoia 最近发布了一支访谈,主角是 SemiAnalysis 的 Dylan Patel,标题是 《Why Hardware-Software Co-Design Is AI’s Real 100x》。这支视频最值得看的地方,不是某个芯片路线会不会赢,而是它把 AI 推理的竞争单位从“芯片”改成了“系统”。
如果这个判断成立,AI 基建的护城河就不会只在一颗芯片里。
它会藏在模型、软件、硬件和数据中心之间的配合方式里。

画面来源:Sequoia Capital YouTube 视频《Why Hardware-Software Co-Design Is AI’s Real 100x: Dylan Patel of SemiAnalysis》00:28:21 附近。
静态 benchmark 正在失效
Patel 在访谈里反复强调一个问题:AI 推理 benchmark 不能只看一个静态点。
因为推理不是“跑一次模型,给一个分数”。真实推理服务要同时处理几件事:单位成本、吞吐量、用户等待时间、输出质量、交互速度、负载峰谷、上下文长度、硬件利用率,以及模型版本不断变化带来的漂移。
今天一个模型在某块芯片上表现很好,不代表三个月后仍然如此。模型架构变了,kernel 优化变了,driver 变了,serving stack 变了,客户负载也变了。一个静态 benchmark 很快会变成旧照片。
这也是 SemiAnalysis 推 InferenceX / InferenceMAX 这类动态 benchmark 的背景:行业需要持续观察推理服务在成本、延迟和吞吐之间的 Pareto curve,而不是只截取某个最漂亮的点。
这个变化很关键。
训练时代,很多人会把算力竞争理解成“谁先堆出更大的集群”。推理时代,竞争开始更接近运营问题:同样质量附近,谁能让每一次输出更便宜、更快、更稳定,同时还不牺牲交互体验。
这不是单个芯片参数能回答的问题。
Co-design 的意思,不是硬件压倒软件
“hardware-software co-design” 很容易被误读成“硬件公司终于要重新主导一切”。
更准确地说,它是反过来提醒我们:硬件不能孤立地赢。
模型结构会决定硬件该擅长什么。稠密模型、稀疏模型、Mixture-of-Experts、长上下文、多模态、推理时搜索,每一种形态都会改变算子、内存访问、batch 策略和通信压力。软件栈会决定这些压力如何被编译、调度和执行。硬件再把带宽、片上内存、互联、能效和成本约束加回去。
如果这些层各自优化,结果常常是局部很强,整体不顺。
Patel 在视频里谈到 DeepSeek、Hopper、TPU、Cerebras 和 CUDA moat 时,核心不是给出一个永久胜负表,而是说明同一个行业正在出现更细的适配关系:某些模型形态更适合某些硬件,某些硬件路线会反过来影响模型设计,某些软件生态会降低迁移成本,也会制造惯性。
所以 co-design 的价值不是一句“专用芯片必胜”。
它真正的价值是减少错配。
模型不要假装硬件不存在;硬件也不要假装模型永远长一个样子。软件、compiler、kernel、serving scheduler 和数据中心容量,都要进入同一张设计图。
CUDA 护城河被拆开了,但没有消失
视频里另一个值得保留的判断,是 CUDA moat。
过去很多 AI 基建讨论会把 CUDA 当成一个整体词:Nvidia 赢,因为 CUDA 强。但进入推理工厂视角以后,这个词需要被拆开。
CUDA 里有开发者习惯,有库和工具链,有 kernel 生态,有调试经验,有团队已有代码,也有招聘和组织惯性。这些东西仍然很强。它们不会因为出现几款新芯片就自动消失。
但它也确实开始被部分拆解。
AI coding tools 会降低迁移和重写成本。开源 compiler、serving framework 和 benchmark 会让更多硬件路线获得被验证的机会。模型公司如果足够大,也会愿意为自己的模型形态定制更深的硬件/软件路径。
这意味着 CUDA 的护城河不是“没了”,而是从一堵墙变成了很多具体成本。
哪些成本仍然很高?
哪些成本正在下降?
哪些应用值得为了推理成本去跨过去?
这会比一句“CUDA 仍然无敌”或“CUDA 已经结束”更接近现实。
推理工厂会把竞争推到数据中心
当推理成本被持续压低,瓶颈不会消失,只会迁移。
它会迁移到电力、散热、机柜、资本成本、集群利用率和客户需求曲线上。
这也是为什么视频后半段谈到 neocloud、hyperscaler 和数据中心时,听起来不像一个单纯芯片话题。AI 推理如果真的成为一个大规模服务市场,它就会更像工业生产:你要有设备,要有能源,要有订单,要有调度,要有融资结构,还要知道什么时候不该继续生产。
“推理比石油更大”这类判断当然需要谨慎看待。它更像一种强烈的方向性表达:如果 AI 输出成为软件、客服、搜索、编程、设计、数据分析和企业流程的基础生产资料,那么推理服务就会变成一种新型基础设施。
但基础设施不是只靠热情建设。
它需要容量纪律。
谁拥有数据中心?谁承担闲置风险?谁在高峰期拿到算力?谁决定某个 agent 调用值得继续烧?谁把 benchmark 从营销材料变成采购依据?
这些问题会决定推理工厂是不是赚钱,而不只是显得先进。
便宜推理需要停止权
推理成本下降听起来总是好事。
但越便宜的能力,越容易被无边界使用。
如果一个组织只知道“模型调用更便宜了”,却不知道哪些调用带来真实价值,哪些调用只是制造更多中间文本和自动化噪音,那么成本下降会被调用量吞掉。最后看起来每次推理都便宜,整体账单却更大,系统也更难审计。
所以推理工厂的治理问题,不只是谁控制模型输出。
还包括谁控制成本、容量和停止权。
一个团队需要知道:哪些任务必须用最强模型,哪些可以路由到小模型;哪些 latency 真的影响用户体验,哪些只是工程自我感动;哪些 benchmark 能代表业务负载,哪些只是漂亮演示;什么时候继续扩容,什么时候停止低价值调用。
这也是 co-design 最容易被忽略的一层:它不是单纯追求更高性能,而是把性能、成本、延迟和用途绑在一起。
没有用途边界,100x 也可能只是更快地产生浪费。
护城河在跨层配合里
Dylan Patel 这支访谈给我的最大提醒是:AI 基建正在从“资源争夺”进入“系统编排”。
GPU 仍然重要,先进封装仍然重要,HBM、互联、电力和数据中心仍然重要。但如果只盯着硬件清单,就会错过推理时代真正的变化。
未来的 AI 公司不只是调用模型。
它们会选择模型形态,选择 serving stack,选择硬件路线,选择云和数据中心,选择延迟目标,选择 benchmark,也选择哪些调用应该被停止。
这套选择合在一起,才是推理工厂。
所以,AI 推理真正的护城河,不在一颗芯片里。
它在跨层配合里:模型知道硬件,软件榨干硬件,数据中心承接负载,资本结构支撑容量,而业务知道什么时候该调用,什么时候该停。
芯片是工厂里的关键设备。
但赢下推理时代的,不一定是只拥有设备最多的人。
更可能是最早把设备、软件、模型和需求调成一套系统的人。
参考来源
- Sequoia Capital: Why Hardware-Software Co-Design Is AI’s Real 100x: Dylan Patel of SemiAnalysis
- SemiAnalysis: InferenceMAX Open Source Inference Benchmark
- SemiAnalysis: InferenceX
- PodcastAlpha / BigGo: Why Hardware-Software Co-Design Is AI’s Real 100x summary
- StartupHub: Hardware-Software Co-Design: AI’s 100x Multiplier