“反英伟达联盟”变强，4.4万亿美元帝国遭遇“四面围猎”

来源：36kr 5 小时前

苏姿丰、陈立武等人组成的“复联”，图片由AI生成。

3月16日，美国加州圣何塞的冰球场又将座无虚席。英伟达CEO黄仁勋将穿着他那标志性的皮夹克走上舞台，开启一年一度的GTC大会。

但今年，气氛有些微妙。

过去十年，英伟达可以称为AI芯片市场唯一的“王”。

《华尔街日报》统计的数据显示，从2025年2月到10月，英伟达卖出了1478亿美元的芯片和相关硬件，比上年同期的910亿美元增长了62%。去年7月，英伟达成为全球首家市值突破4万亿美元的公司，后来一度摸到5万亿的门槛儿。

但这个芯片帝国正被一群对手围猎。这场围列的参与者可以大致分成三股势力：

第一是博通领衔的定制芯片（ASIC）阵营，可以说是几乎所有大客户“叛逃”的技术后台。谷歌的TPU、Meta的MTIA、OpenAI即将推出的自研芯片Titan，背后都有博通的身影。

博通上季度AI收入84亿美元，同比暴增106%。根据Counterpoint Research预计，博通明年将控制定制AI芯片市场60%的份额。当英伟达的大客户们纷纷转向定制芯片，博通就成了这场围猎中最关键的“军火商“。

第二股是超大规模云服务商的自研芯片浪潮。谷歌的第七代TPU Ironwood峰值性能4.6 petaFLOPS，已开始对外出租；亚马逊的Trainium 2芯片正被Anthropic用来训练大模型，规模达50万颗；微软的Maia加速器持续迭代。这些巨头十几年前被英特尔卡过脖子，如今应该再也不想让英伟达再来一次。

第三股是传统芯片对手的反击。AMD的MI300X已部署在微软Azure上为ChatGPT做推理，拿下了OpenAI和甲骨文的大单；英特尔新任CEO陈立武用低价和低功耗的Gaudi 3抢市场。

黄仁勋喜欢说的一句话是，英伟达卖的不只是芯片，而是“AI工厂”。但眼下，想开工厂的人，不想只从他一家进货了。

01 大客户倒戈：谷歌、亚马逊要自己造芯

在挑战英伟达的队伍里，最让市场紧张的，是那些原本排队等着买芯片的巨头突然说：我们自己造。

谷歌是这条路上走得最远的。它研发张量处理单元（TPU）已经有差不多十年时间。过去这些芯片主要用于自家的云服务和内部工作负载，但今年2月份，谷歌开始将TPU租给Meta。这还没完，谷歌又和云公司Fluidstack合作往外租TPU。

谷歌的第七代TPU叫Ironwood，峰值性能4.6 petaFLOPS，比英伟达B200还略高一点，功耗却低不少。AI初创公司Anthropic已经计划用上百万颗Ironwood来运行Claude模型。去年11月下旬，SemiAnalysis创始人迪兰·帕特尔（Dylan Patel）曾感叹：“谷歌芯片越来越流行，可能意味着英伟达主导地位的终结。”

图：谷歌CEO皮查伊介绍第七代TPU Ironwood

亚马逊的AWS推出了Trainium芯片专门用来训练模型，还有Inferentia芯片专攻推理。

Anthropic正在用50万颗Trainium 2芯片训练模型，未来亚马逊还要给它建一个拥有上百万颗芯片的数据中心集群。

图：亚马逊两款芯片分别针对训练和推理

微软的Maia 100加速器还处于研发早期，专为Azure工作负载设计。Meta早在2024年内部已经部署了超过150万颗自研的MTIA芯片。它的逻辑很简单：与其让英伟达赚走73%的毛利，不如自己造自己用。

图：微软的Maia 100加速器

02 定制芯片的围剿

就在GTC开幕前五天，Meta一口气公布了四款自研MTIA芯片路线图，从300到500系列，全部瞄准AI推理，每六个月迭代一代。而帮Meta设计这些芯片的，正是博通。

博通专门做定制芯片（ASIC，专用集成电路），谷歌的TPU也是博通帮忙开发的。现在，博通占据了AI ASIC市场超过50%的份额。

2026年，在台积电115万片CoWoS晶圆产能中，博通预定量大幅增长到20万片，同比猛增122%。这些订单主要分给谷歌（60%到65%）、Meta（20%）以及OpenAI。其中，OpenAI年底将推自研芯片Titan，占博通所占晶圆产能的5%到10%，2027年将超过20%。

ASIC阵营的CoWoS产能预订和分配情况

另外，博通今年和OpenAI签了个大单，双方要一起开发定制AI加速器和机架系统，规模高达100亿瓦特，2026年底开始部署，预计2029年完成。

博通CEO陈福阳对自家公司的优势看得很清楚：英伟达的GPU虽然通用性强，但“全能”也意味着在特定任务上不够节省。而定制芯片恰恰是为特定场景而生，在推理这类任务上，ASIC的成本可比GPU低30%到50%。

03 老对手反击：AMD、英特尔的翻身仗

谷歌、亚马逊是客户变竞争对手，AMD、英特尔才是与英伟达对标的劲敌。

AMDCEO苏姿丰很早就定下方向——AI转型，她认为行业“对算力的贪婪需求”不会停。现在看来，苏姿丰赌对了。AMD市值从不到千亿美元涨到3500多亿，还签下了OpenAI和甲骨文的大单。

AMD的MI300X加速器已经部署在微软Azure上，并给ChatGPT做推理。192GB的HBM3内存，带宽5.3TB/s，内存比英伟达H100还高。2024年，AMD向微软、Meta、甲骨文出货了约32.7万颗MI300X。新一代MI325X也已经出货，MI350系列明年推出，官方称其推理性能提升35倍。

AMD的MI300X加速器

英特尔这位有些落寞的巨头，也在默默用力，Gaudi 3加速器定价只有H100的一半左右，128GB内存，功耗600W，比H100低100W。

英特尔Gaudi 3功耗更低

官方宣称在某些训练任务上比H100快1.5倍，性价比高2.3倍。戴尔、慧与、联想都在推Gaudi 3的系统。英特尔新任CEO陈立武上来就把AI芯片业务直接归到自己麾下，变成了“一把手工程”。

04 新秀突袭：Cerebras们的机会

除了老对手的穷追不舍，一批初创公司也在崭露头角。

最让英伟达紧张的大概是Groq。这家公司由前谷歌TPU工程师创立，专攻推理芯片，速度快、成本低。为了应对这种压力，英伟达去年12月砸了170亿美元，从Groq手里买下技术授权，还顺便挖走了核心团队。如此价格与阵仗，足以说明黄仁勋对Groq的重视程度。

Cerebras是另一家狠角色。它2015年成立，估值230亿美元，其设计的芯片有餐盘那么大，叫“晶圆级”芯片。今年1月，Cerebras和OpenAI签了100亿美元的大单。

Cerebras的CS-3芯片

Cerebras刚推出新的推理平台，基于它的CS-3芯片，号称比英伟达H系列快20倍，而价格只是零头。CEO安德鲁·费德曼（ Andrew Feldman）表示：“打败800磅大猩猩的方法，就是拿出好得多的产品。更好的产品通常能赢。”

SambaNova在收购谈判和英特尔谈崩之后，自己又融了3.5亿美元，给企业客户做AI硬件和软件系统。Tenstorrent估值20亿美元，也是做GPU替代方案。还有d-Matrix、Etched、Positron AI……这一串名字，每一个背后都站着几亿甚至几十亿美元的投资。

这些初创公司有一个共同判断：AI正在从训练转向推理。训练再重要，也就是几个月的事，推理则是每天每时每刻都在发生的事。到2030年，推理将占全球AI计算需求的75%。而推理任务对成本敏感，对延迟敏感，最容易被专用芯片吃掉。

英伟达当然不会坐视不管。除了购买Groq的技术，它还将自家NVLink网络技术开放给第三方，英特尔、高通、富士通、Arm都拿到了授权。这意味着，以后别人家的CPU也能和英伟达的GPU更好地连在一起。英伟达的逻辑是：不管你用什么架构，都能和我家产品兼容。

英伟达的策略显然已经见效，埃隆·马斯克（Elon Musk）旗下xAI就选择了与英伟达深度绑定。

xAI的Colossus超级计算机几乎全部采用英伟达的Hopper和Blackwell系列GPU，目前规模已经超过20万颗，还在向百万颗迈进。在孟菲斯数据中心，光是芯片采购就花了数百亿美元。马斯克不但在122天内建成了Colossus，还公开感谢过英伟达的网络技术。

2025年10月，xAI通过特殊目的工具融资约200亿美元，英伟达直接投了20亿，这笔钱最终又回到英伟达账上买芯片。双方还一起参与BlackRock、微软发起的AI基础设施合作伙伴计划。

05 暗藏杀机：CPU复兴与电力墙

除了明面上的对手，英伟达还面临两个更深层的威胁。

一个是CPU的复兴。

过去几年，GPU光芒太盛，CPU的存在感显得暗淡许多。但智能体AI崛起之后，局面正在变化。智能体需要大量“编排”工作，在用户与各类AI智能体之间来回调度任务。这类任务GPU无法胜任，CPU才是主角。英伟达自己也承认，“在扩展AI和智能体工作流程方面，CPU正成为瓶颈”。

英伟达早在2021年就推出了数据中心芯片CPU Grace，如今第二代Vera已进入投产阶段。今年2月，该公司与Meta签下多年协议，首次大规模独立部署Grace CPU，并计划2027年引入Vera。美国银行预测，CPU市场规模有望从2025年的270亿美元增长至2030年的600亿美元。

但问题在于，产能跟不上需求。据路透社报道，AMD和英特尔已向中国客户发出预警：CPU将面临供应紧张。交付周期拉长至六个月，价格上涨超过10%。

AMD数据中心主管福雷斯特·诺罗德（Forrest Norrod）坦言：“过去六到九个月的需求增长前所未有。”英特尔发言人也表示，库存已降至“最低水平”。芯片分析师本·巴加林（Ben Bajarin）打了个比方：“晶圆不是树上长的，没法说多收10%就多收10%。整个行业都在紧巴巴地过日子。”

另一个威胁是电。

英伟达的B200 GPU，满配功耗达1200瓦，比上一代H100的700瓦又增加了71%。用于训练大模型的GB200机架，整机功耗达到120千瓦，必须依靠液冷才能运行。与之相比，一个美国普通家庭的平均用电量仅为1.2千瓦。换句话说，一个英伟达机架的耗电量相当于一百个家庭。

英伟达B200 GPU功率远高于同类竞品

数据中心的供电能力正在成为瓶颈。德勤对120家美国数据中心和电力公司高管的调查显示，72%的受访者认为，电网与供电容量对AI基建构成了“非常”或“极其严峻”的挑战。目前，全球仅有不到5%的数据中心能够支持单机架50千瓦以上的功率密度，而Blackwell配置的需求是60到120千瓦。

高盛预测，到2030年，全球数据中心的电力需求将增长165%。在弗吉尼亚这样的关键节点，电网并网申请的处理周期已拉长至四到七年。

高盛预计，与2023年相比，到2030年，全球数据中心电力需求将增长165%

这意味着，英伟达的芯片即便订单再多，实际的部署数量仍将受限于供电能力。与此同时，功耗更低的替代方案迎来了窗口期。谷歌称，他们的Ironwood芯片的能效是第一代云TPU的30倍；英特尔更是将低功耗作为Gaudi 3的核心卖点之一，意在抢占总体拥有成本的优势。

当效率开始比性能更关键，游戏规则正在悄然改写。

06 护城河CUDA？

CUDA被称为英伟达最深的护城河，这个护城河会永远有效吗？

CUDA于2006年发布，比ChatGPT的问世早了整整16年。在这十余年间，英伟达持续投入巨额资源，即便在亏损阶段也未曾中断。数百万开发者掌握了CUDA编程技术，PyTorch、TensorFlow等主流深度学习框架均优先针对CUDA进行优化，cuDNN、cuBLAS等底层计算库历经无数次迭代。这套软件生态的建立，绝非一朝一夕之功。

但CUDA不是魔法。软件护城河，也是可以架桥的。

AMD的ROCm软件堆栈正在缩小性能差距。PyTorch已正式支持ROCm，AMD还投资做了ZLUDA——一个能让CUDA程序直接在AMD硬件上运行的兼容层。微软据说也在开发工具，用于将CUDA模型迁移到AMD芯片上。OpenAI的Triton 3.0已支持AMD Instinct加速器。

CUDA的锁定效应还在，但一年比一年弱。

今天，英伟达依然是全球盈利能力最强的公司之一，其产品性能仍保持领先地位，软件生态的壁垒也最为深厚。在大模型训练这一核心赛道上，短期内尚无任何对手能够撼动其主导地位。

但市场格局正在发生变化。训练仅占AI计算的一小部分，推理才是未来的主战场。在这一领域，专用芯片具备天然优势。超大规模云服务商自研芯片，并非出于技术理想主义，而是为了切实降低运营成本。英伟达高达73%的毛利率，每一分都代表着客户希望省下来的开支。

未来的AI芯片市场，大概率不会呈现赢者通吃的局面，而将走向两条腿并行的格局：英伟达继续在训练和高性能计算领域保持领先，而博通等厂商则在推理和定制化应用中切走越来越大的市场份额。

到底谁能笑到最后，不仅要看硬件的运算速度，还要看谁能在性能与价格之间找到那个最舒适的平衡点。

特约编译金鹿对本文亦有贡献