美国经济正在上演一场“冰与火”的极端分化。据美国《财富》杂志10月7日报道,美国哈佛大学经济学家杰森·弗曼(Jason Furman)的一项研究发现,2025年上半年美国GDP增长几乎完全由数据中心和信息技术推动,在这些技术以外的其他领域,增长率仅为0.1%。
在这场算力军备竞赛中,OpenAI宣布将投入约1.4万亿美元,建设超30吉瓦的计算基础设施,目标每周新增1吉瓦。马斯克也公布了xAI的算力目标,计划5年内上线的AI算力达到等价于5000万台H100的量级。
一场由科技巨头主导、资本推动的万亿级基建浪潮正席卷而来,而它的商业模式却未经过验证,无人能断言这场豪赌的终局。
本期《硅谷101》,主播泓君邀请了字节跳动数据中心与能源项目经理徐熠兴(Ethan Xu),前特斯拉供应链总监王辰晟,来聊聊这轮AI大基建中巨头们采取了哪些动作,背后的逻辑是什么,它们正在带火哪些行业,以及为何美国的电力建设如此困难。

以下是这次对话内容的精选:
01
AI巨头押注算力规模
泓君:现在所有的AI巨头都在做数据中心,如果让大家总结一下,你们觉得哪几家做得最猛?当然,新闻报道上是OpenAI和微软的5000亿Stargate项目,还有OpenAI和甲骨文合作的3000亿美元数据中心项目(中间可能有重合)。但我知道马斯克的xAI在布局数据中心和抢货方面也非常猛的,扎克伯格也在全力投入。从你们的角度看,哪些公司最激进?策略是什么?
Ethan:OpenAI的野心是非常非常大的,现在它公布出来的数据是要做10个吉瓦的Stargate的项目。我觉得这可能只是一个刚刚的开始,它的野心可能是这个的十倍,甚至更多。这是在未来的比如说5到10年,他们想实现的一个目标。
泓君:十倍,5万亿的一个产业?
Ethan:我觉得这个数量级是基本上没有问题的。
泓君:美国现在的GDP是二十几万亿美元,差不多它这个就要占GDP的,当然也不是一年……整体上占一年整个美国GDP的25%了。
Ethan:我觉得是很高的,我们可以拭目以待,看一看今年美国的GDP的增长当中,有多少是数据中心基础建设贡献的,我觉得这个比例到70%,我也不会很吃惊的。
王辰晟:你有可能低估了。
Ethan:对,甚至有可能低估。我也看过黄仁勋或者一些咨询公司的观点,他们也认为在未来的五年,整个的数据中心基础设施建设的投资规模应该是到5~7个万亿这个级别的。

Ablilene, Texas 星际之门项目 图片来源:Bloomberg Originals
泓君:钱从哪来?
Ethan:钱从哪来确实是一个很有意思的问题。我记得你们之前做过一期节目,就是讲钱从互相之间的资本循环中来,也是一种比较创新的融资方式(笑)。
泓君:辰晟怎么看?哪一家最激进?
王辰晟:OpenAI肯定是相对比较激进的,因为你看它现在很多公告,它未来几年跟英伟达有一个10吉瓦的意向,跟AMD有一个6吉瓦的意向,同时最近还有跟博通的一个10吉瓦的意向,加起来就已经是26吉瓦。500亿一个吉瓦,这就已经是一个1.5万亿的一个概念了。
泓君:未来五年。
王辰晟:对,同时它在一些供应链上,非常激进地做布局。最近跟三星和海力士包了一个90万片晶圆每月的产能,它基本上占了整个DRAM(动态随机存取存储器)市场可能1/3,HBM(高带宽存储器)市场60%,就它一家。
如果你是马斯克,或者你是小扎,你会怎么去应对?你也不希望被他们卡脖子,所以每个公司现在从供应链角度做得都不一样。马斯克xAI去横扫了所有的小型的涡轮发电机。Meta过去几年就已经做得非常激进,去各种买一些能源成本相对比较低的地,去建它的数据中心,最近是在爱达荷州还是俄亥俄州,又一个5吉瓦去上线,它的规模基本能占大半个曼哈顿。Google也会做一些供应链上的布局,比如一些光缆,它会做非常激进的供应链上的产能买断。所以说其实每个巨头都在发力,都不想在这个竞争当中输人一头。

Meta在路易斯安那州采购的太阳能发电设施 图片来源:Common Energy
泓君:微软我们好像没有提到。
Ethan:微软其实蛮有意思的,它去年的时候跟OpenAI的合作关系是非常融洽的,但是在年初的时候大家也看到一些新闻,提到关于OpenAI和微软的关系已经有了一些变化,包括OpenAI开始去找Oracle或者其他公司合作建数据中心,微软不是它唯一的数据中心提供商了。同时它也在某一些数据中心暂停施工,或者是退租了一些数据中心等等。
我们看最近这几个月的发展,能够感觉到微软在数据中心投资这方面,和其他公司比是相对稳健的。OpenAI就完全是另外一种风格,都是每一两个星期就会有一个非常大的公告,说我要建5个吉瓦、7个吉瓦的数据中心,和不同的公司合作,和整个产业链合作。所以能看出这两个公司,在AI数据中心或者整个数据中心行业的投资和策略方面已经有一些不同了。
泓君:对,所以就是说微软中间稍微缓慢了一点,最近又在加速。
Ethan:对,微软最近刚刚宣布了一个全世界最大之一的AI的数据中心,刚刚落成。我觉得这个行业的变化确实还蛮快的,年初的时候,我记得微软的CEO在公开采访中提到过,他觉得这个行业是有一些过度建设的,他觉得有一些泡沫,他想用更稳健的方式去建设数据中心。但是我们现在看到,微软速度也蛮快的,并没有像年初的时候说的那样慢下来。所以我猜想,也许各个公司的高层在这一年里,他们的策略和想法上是有一些波动的。但是此时此刻,能感觉到所有人都在全速前进了。
王辰晟:我觉得几个巨头,包括Google、亚马逊和微软,他们的态度可能是因为他们过去在云上其实有很多的Data Center的投入了。像Google、微软,他们现在已经有的Data Center可能已经超过10个吉瓦。对于从零开始发展的OpenAI,大家需要的增长速度是不一样的,因为基数不同,反馈出来的激进程度也会有不同。

stargate site 1, texas 图片来源:Sam Altman
泓君:这个点很关键,这是为什么我们现在经常听到的名字是Meta、xAI还有OpenAI,而不是这些云厂商的巨头像Google、亚马逊和微软。
我们刚刚其实提到了OpenAI,它在做Stargate的项目,在抢地,在跟芯片厂商去达成合作。马斯克其实也是在抢发电机,Meta也在抢地。我是在想,那芯片供应其实也就这么多,大家不会在某种程度上都有短缺吗?
王辰晟:从纯产业链的产能来讲,芯片现在并没有像能源这么紧缺,如果你每一片把它用到刀刃上。台积电的产能来讲,它也在积极地去布局,所以芯片相对是比较充足的。台积电可能两年之前有在说CoWoS它的先进封装的产能会有些落后,但是它最近也在说在亚利桑那州要建两个先进封装的晶圆厂。这些产能在过去两年经历cycle的时候,他们已经在做投资了。
我只能相信老黄他的直接声明是对的,在GPU的芯片的供应上肯定是不缺的,但是可能会有一些别的配套的产业上面会有一些额外的缺口,包括存储器,线束,甚至于一些数据机柜。但是可能这个缺口相比能源来说并没有那么大。
Ethan:我觉得这点可以补充一下,像我能看到的比较重要的几个策略上的观点。一个观点就是我们刚才一直在聊的所谓的电力优先(Power First),因为大家都已经明显看到,最缺的就是电,谁能拿到电就意味着你能带起更多的GPU,你就更有可能训练出更好的模型,你就可能获得更多的用户,更好的用户体验,从而占据更大的市场份额。而这样的市场份额可能会给你带来更多的营收和利润,然后又可以再次循环,拿这些营收和利润去买更多的电和地,继续让我的模型变得更好。所以Power First在很多大型公司里是一个非常重要的策略。
还有另外一个策略是大家都考虑到的,为什么这些公司都那么激进?最根本的一点是因为大部分公司现在都意识到——Underinvestment is riskier than over investment,就是所谓的投资不够给你带来的风险,要远远大于过度投资带给你的风险。
为什么会这样呢?像AI这个行业,大家目前有一个大致的共识,就是很有可能谁最先获得最好的AI模型,或者所谓的AGI的话,这家公司就会占据比较大的一个市场份额,其他公司的生存空间就会很快地缩小,所以投资不够的风险是非常大的。
我们再看一下过度投资会有什么样的风险?你无非就是买了更多的地、更多的电、更多的房子建数据中心,最后你发现可能买多了,无非就是把它用作自己公司内部的效率提升,或者租给其他人,或者就把这些地和电卖出去。总体来说,过度投资的风险是有封顶的。
泓君:因为它都是固定资产,这些固定资产你转卖它也是容易的。
Ethan:比如说GPU你买多了,那你卖给其他公司也没有什么问题,所以它过度投资的风险相对来说是比较小的。而对于某些大的科技公司来说,如果投资不够导致它没有在这场竞争中胜出的话,它有可能面对的是一个生死存亡的一个境地。
所以这也是为什么绝大部分公司宁愿多投资。哪怕华尔街现在已经有一些质疑了,是不是过度投资了?你们能不能收得回利润来?这个营收能不能cover住你们这个投资?甚至股价上也开始反映出来了。但是这些公司我觉得现在没有一个眨眼睛的,都是继续在加大投资。

Datacenter, Abilene 图片来源:Sam Altman
王辰晟:对,因为没有人想当诺基亚。你跟股东说我4万亿的市值会变成3万亿的市值好呢,还是说我的4万亿的市值会变成0?你更多是有个梦想说,我现在投资,如果我经历过这一场退潮,然后我活下来其他人死掉了,我就从4万亿变成10万亿……这是大家更喜欢听到的一个故事,不代表它就一定会发生。
还有一点,在硅谷有一句话——Bill will always eat Andy,Andy代表Andy Grove(英特尔前CEO),Bill是比尔·盖茨。就是说,你只要有基础设施有硬件,软件总有些办法把你的资源运用掉的。
这周早些时候OCP(Open Compute Project),Meta的人就在里面说,其实他们目前的GPU光用来做他们内部一些AI,比方说Instagram或者Facebook,去筛除一些不合适的内容,也已经需要很多算力了。它就算有多余的闲置的算力,它用来做内部的降本,也是完全是可以的。所以我觉得现在主流的这些公司,都不会担心过度投资然后没有办法用掉,而更多的是说,我怎么把我有的这些资源去做更好的配置,去扩大利润和收入。
我可以稍微补充一下Ethan刚刚讲的一点,就是为什么大家要建大的数据中心,这里有两笔账。一笔就是经济账。Google自己说过,在爱荷华州去建一个1吉瓦的AI Data Center,比同样分布式的一年可以省5亿美金的运营成本,因为它更加高效,无论是从输电、冷却、运营来说。
同时,从一个AI算力的训练的这个角度来讲,比方说GPT-4,按照以前H100的卡,需要差不多16000张,以90天的时间,去做一个1.7万亿的数据量的模型的训练。如果到GPT-4.5,它可能是10的26次方,它需要的是一个两三倍的卡,甚至于说GB200,25000张卡,也需要90-120天去计算。在这样一个AI军备竞赛的前提下,你肯定是不希望花一个季度才能训练出一个模型。你更加希望的是每一周,或者每两周,就可以有一个模型,不停地去进步,不停地去迭代。所以它造成了一个指数级别的需求,从一个万卡集群变成十万卡集群,甚至到百万卡集群。而且你可能需要训练更大体量的数据模型,这样就会把算力从以前30兆瓦的AI Data Center推到1吉瓦、甚至于5吉瓦的这样一个Data Center的体量,因为大家都不想输。
泓君:那我再问一个更底层一点的问题,大家为什么需要建这么大的数据中心?你们觉得这个数据中心,未来更多的是做这个模型的training,还是用作应用方向?这个数据中心是支持谁的?
王辰晟:两年之前的话,大家可能有60%-70%算力是用于做预训练的。当然预训练也有它自己的瓶颈,现在有很多不一样的工程上的优化,无论是从有专家的模型,包括说有一些post training去做强化学习的,这些都是一些厂商觉得怎么样提高这个模型的效率,而从预训练转换成一个后训练的过程。
同时因为这本经济账,大家要确保我有收入。训练是不能给你带来收入的,一定是应用或订阅会费才能给你带来收入。所以现在所有的大厂都转型把更多的资源用到推理上。今年早些时候,推理和训练的比例已经转成推理占比更高,可能推理占六成,训练占四成。之后推理的比例可能会大大增高,甚至占到80%以上。

Datacenter, Abilene 图片来源:Sam Altman
泓君:所以现在的数据中心,是给这些AI厂商做推理来用的。
Ethan:我基本上同意这个观点,在未来一定是推理和应用那方面的数据中心的利用,或者是能源的利用,占比越来越高,而且是占大头的。当然AI的训练也会有一定的占比,它需要不断地去迭代,推出更好的模型。推理的占比高,意味着它越来越多地在应用层面创造出价值。就像微软CEO之前说的,AI只有在真正创造GDP的时候,才是有价值的时候,那个也是真正关键的时候。
泓君:那我们一定需要这种大的数据中心吗?小的数据中心行不行?假设我们零散地把一些居民用电的这些闲置的电集中起来,然后再做储能,再分配给各个应用或者大厂,这种方式是有可能的吗?
王辰晟:如果是做训练的话,这个规模不太允许它去做这样的一些调整,因为它需要所有的data在同时进行计算,需要机柜和机柜之间的互联,需要一个大的集群。但是如果去做推理的话,它其实可以根据用户的需求去进行一个合理的配置。用现在的闲置算力或者电力去做,这个有点像以前PPTV或类似的产品。确实现在也有一些公司在用闲置的算力去做,比方说novita,它是一个start up,更多是用闲置的这些算力,相比别的供应商,提供更低成本的算力。
可是你作为一个大厂的话,你要去算一笔经济账,在用户需求的时候,它是不是一直有可用性,一直能去调用这些算力资源。同时如果是分散的话,它在管理、物流各方面是没有效率的。我刚刚也提到,如果它有个大的规模集群,又可以用来做训练,等到不需要训练的时候又可以用来做推理,这个经济账是更容易算的。
Ethan:没错,我也非常赞同。具体的应用是什么,会决定对数据中心的要求是什么样的。举一个例子,现在大家有一个初步的共识,就是对于AI的训练来说,也许这样的数据中心并不需要离大城市太近,也不需要可靠性太高,因为可靠性不高的后果无非就是影响了一下你公司内部的一些研究人员的进度。一些AI的云厂商,如果它要提供给第三方客户的话,它需要达到所谓的“5个9”这样的可靠性,就是99.999%的可靠性。但是对于AI的训练来说,也许不需要达到那么高,也许“3个9”,99.9%就可以了。
而这些AI数据中心又需要很多能源,它可以建在离能源更接近的地方。比如说OpenAI这个策略,我就觉得非常好,他们把Stargate的很大一部分项目放到了德州的西部,那是一个又有风又有光,同时还有一定的电网接入能力的地方,而且还有大量的地,这就非常适合做AI的训练了。所以并不是所有的数据中心都需要和客户离得那么近,在资源非常紧缺的情况下,可以根据你的应用的特点,去看你的数据中心要建在哪个地方,去实现什么样的目标。
02
军备竞赛下的能源危机
泓君:数据中心首先需要电,其次还需要发电机,跟各种各样的小型的我们可能想不到的设备,比如说变压器。那还有一层,就是它需要有芯片。这三个问题怎么解决?我们今天可以一个一个地来分析一下。首先,数据中心现在的电从哪来?Ethan,我记得你之前在我们节目上讲过,整个美国的电是处在一个比较稳定的增长状态,从今年的数据来看还是这个样子吗?
Ethan:我记得在上周,黄仁勋在一个CNBC的采访中提到,他可以生产出整个市场所需要的GPU,但是现在最大问题是没有电。
在过去的20年,美国的整个电力系统的发展是非常地缓慢的,它几乎是以每年低于1%的增速在慢慢地扩张自己的电力系统,这和中国几乎百分之五六七这样的年增速,是完全没有办法比的。美国过去20年的经济发展,和它的电力系统的发展,几乎是脱钩的。这也导致一个问题,哪怕你现在开始加倍你的增长速度,那也只是2%而已,远远跟不上数据中心高速增长的速度。
美国的新增电力的负载当中,我们估计,数据中心可能就会占到40%左右,剩下的60%可能是电动车的增长,或者是生产制造业的回流等等。
还有一个数据可以分享,一些机构预估美国每年应该需要增加大概80个吉瓦的发电量,才能够大概地满足美国的数据中心、电动车和生产制造业的回流到美国这样的一个增长的需求。但是目前来说,美国每年的发电量增长只有50~60左右这个水平,也就是说每年美国面临的是大概20个吉瓦发电量的一个巨大的缺口。如果保持这样的缺口的话,未来5年左右,很可能美国将会面临一个大概100个吉瓦的发电量的缺口。当前美国的总发电量大概是在1300个吉瓦,所以这个缺口占的比重也是非常大的。
泓君:20个吉瓦是一个什么概念?比如说一整个纽约市或者旧金山的发电量会有20个吉瓦吗?
Ethan:这个是个很好的问题,像纽约的话,它的平均用电量大概是在6个吉瓦左右,它每年的峰值是在11~12吉瓦左右。所以说每年落下20个吉瓦,这个缺口相当于2-3个纽约的发电量的水平。

图片来源:GE Vernova
泓君:但现在我们说,居民用电跟工业用电都要保证,AI的数据中心也得建,因为它用户数一直在增长,所以现在缺的这部分电从哪来?或者说我们拉回到现在的这个时间点,现在对于AI来说大家缺多少电?
Ethan:我们预估今年数据中心会新增大概8个吉瓦的新增的用电量。这个电从哪里来?美国过去几十年的电网建设中有一些余量。还有GE这样的公司也在大量地制造和出售自己的天然气发电站。还有一些清洁能源。有一些研究机构预测,新增的这些发电可能60%靠天然气发电站,40%左右靠光伏、风能和储能这些来弥补。
当然我们希望未来核能尽快地成为新的主力。现在美国的发电当中,大概20%的发电来自于核能,但这些都是属于过去几十年一直存在的存量核能。像新增核能这一块的话,我们可能还要等到比如说2028年左右,才会看到新增的核能上线。像一些新的核能技术,比如说小型或者微型核反应堆,像SMR这样的技术,我个人估计要等到2030年左右才会真正地成为主力。
泓君:我看最近Sam Altman他投了一家公司,他们是做小型的核裂变的反应堆的,股价也是涨得很厉害。
Ethan:这家公司叫Oklo,它股价确实涨得非常疯狂,我也没有想到它在短短的几个月之内就能上涨那么快。我觉得这应该更多的是反映市场对它的期待和情绪吧,而不是它的技术或施工运营方面在突飞猛进。

图片来源:CNBC
王辰晟:我补充一点,美国一年增加五十几吉瓦的发电量,但其中火力发电的组成其实不到5吉瓦。有差不多45吉瓦是太阳能,另外5吉瓦可能是风能,这些发电都是不可持续的,它会根据日照和天气变化,所以它实际真的有效的发电量,可能一年就不足20-25吉瓦。我觉得这个是更加去增加这个缺口的。
再算一笔账,我们按照数据中心的投资,老黄有一个数据就是,500亿≈1吉瓦,所以它整体的话,如果真的有60吉瓦,那就是一个3万亿资本的投入。但是目前来说,所有的大公司预计明年的投入量,基本上不到1万亿,所以从整体的发电的量来说,没有到这么缺的状态,电网里还有一些余量可以去使用。
Ethan:你说的很对,太阳能的1吉瓦和天然气的1吉瓦,其实是不一样的概念。有个概念叫做容量系数(capacity factor),你的平均发电大概是你的峰值的多少。像太阳能的话可能只有25%左右,但是如果是核电发电的话就完全不一样,因为核能它几乎全年一直都是在它的峰值发电,它的容量系数可以达到93%左右。天然气也很高,可能会达到85%左右。不同的发电的技术,虽然是同样的Gigawatt,但是它实际的发电量是不太一样的。
王辰晟:我听说美国的电网是相对比较脆弱的,这个Ethan能不能多介绍一下。
Ethan:美国的电力系统确实是有很大的问题的。我们一直在关注发电这个点,稍微有一点片面,因为数据中心是通过整个电力系统来获得电的,而不只是通过一个发电机、一个电厂来获得电的。
所以我们要看的是,从发电到输电到配电,整个产业链都得形成一个有效的系统。发电大概是占整个电力系统投资的50%左右,输电的话大概会占到10%-20%左右,然后配电的话大概是占到20%-30%左右。
这个输电网的发展在过去也是非常缓慢的。理想状况下,如果这些电站都能进入到美国电网里边,那么数据中心的供电是没有问题的,但问题就在于电网本身连吸纳这些新的发电站都能力不足,再并入到新的数据中心的时候也会有很大的问题。
泓君:刚刚辰晟有一个数据,是说60个吉瓦,差不多背后是3万亿的资金支持,所以反推OpenAI的Stargate,如果说是5,000亿的一个项目,它可能就能建成10个吉瓦的电,这是在规划中吗?如果说这个电建成了,按照Ethan你刚刚的说法,它输入到这个电网,也是有阻力跟难度的?
Ethan:没错,现在我们了解到的Stargate,它的目标是能够建到10个吉瓦,现在可能已经签约和announce了大概有7个吉瓦,这些都还只是签约和意向,真正要到电网里边应该还会有一些阻力。对于这么大的一个体量,很显然Openai或者它的合作的伙伴,需要想办法在电网上创造新的容量。现在很多科技公司,得自己去建发电机、建发电站、变电站和一些配网的设施,甚至建一些稍微短一点的电力传输线等等,去满足自己的需求,因为电力公司已经完全跟不上他们的需求了。
03
资源抢夺与技术破局
泓君:我们刚刚提到了输电是一块问题,那建电网跟发电可能就是一个更大的问题了。我注意到其实不管是OpenAI的Stargate的项目,还是马斯克的xAI的项目,大家现在用的基本上还是燃气涡轮机的方式。但是这一块辰晟你可能比较了解,涡轮机现在的供应链是一个怎样的情况?它是不是也是一个比较短缺的物品?

GE燃气轮机 图片来源:GE Vernova
王辰晟:对,因为它本身的产能完全是不足的。你可以去看GE Vernova的财报,过去10年它的增长非常平缓,峰值的时候可能是2019年、2020年的时候,大概到七十几台一年,每一台大概在30-50兆瓦。
我们做一个对比,涡轮的发电机其实和我们的飞机引擎非常像,一年有近4000台飞机引擎下线,而涡轮发电机市场最大占比的GE Vernova只有不到100台。这是数量级的差别。一来是之前的需求没有这么旺盛,二来之前政府对于可持续能源、零碳排的这些标准,大家对会增加碳排放的行业没这么多的投入,它相当于是一个夕阳产业。
只是最近,在AI数据中心这样一个缺电的背景下,大家才找到这样一个短期止损的方案,而不是说所有的数据中心都愿意去长期地使用涡轮发电机。更多的是说,如果我并入电网需要两年的许可审批,而我需要数据中心,比方说马斯克需要6个月就上线,那他们一年半的这个gap只能使用一些短期的方案,比方说涡轮发电机。
每个公司也不一样,比方说xAI,根据公开的信息,它横扫了美国将近70%以上的燃气涡轮发电机的库存,已经用来给孟菲斯它两个非常大的数据中心供电。根据SemiAnalysis一个博主的分析,如果我没有记错的话,光Colossus-2一个数据中心,就有160台的涡轮发电机在那边给xAI提供发电。
Ethan:我想问一个问题,是不是涡轮发电机它也是分几种类型的?比如说像GE的,是几百个兆瓦的这种大规模的,我听他们财报说2028年以后才能接新的订单了。是不是现在大家就开始买一些隐形的发电机,这一部分是不是大家也开始扫货了?
王辰晟:对,有一种就是通过飞机引擎改造的,叫航空衍生燃气轮机(Aero derivative combined cycle gas turbine)做小型的涡轮发电机,比方说Caterpillar。它的产能也是需要很长时间去build up的。当然了,你造十台这样的涡轮发电机,也只抵得上一台300兆瓦的发电机,其实它对于供应链的挑战还是很大的。

xAI孟菲斯数据中心内部 图片来源:ServeTheHome
泓君:刚刚说的是涡轮发电机的这部分,发电可能还会用到很多零部件。我记得之前马斯克有一句话就是说Transformer lead transformer(AI算法的成功和算力需求,直接导致了对电力的海量需求)。第一个说的是算法,第二个transformer就是说变压器。我知道变压器在整个市场上它也是一个供货周期很长,可能到18到24个月这样一个非常缺货的产品了,但是它又是必须存在的一个环节。
王辰晟:是的,先分享一个小故事吧。在大概一年半两年之前,特斯拉还在做Dojo(特斯拉的超级计算机项目)的时候,我们想要在Palo Alto,硅谷的中心,去建一个非常小型的只有十几台training的这样一个集群。那个时候Palo Alto市政府跟我们说你们没有电,如果你们需要的话,现在交期已经从3个月涨到18个月了。最后我们自己买了两台变压器,给Palo Alto市政府装好,然后说我们交付给你,你们让我用。那个时候只是3兆瓦,现在我们动辄谈几吉瓦,1000倍的差别。
变压器这一块,它里面需要很多特殊的钢材——硅钢,或者说取向型的硅钢,因为它会带一些磁力的方向,提高它的效率。这种钢材美国只有一家公司可以做,它每年的产能是25万吨,全世界大概有500万吨的产能。中国光宝钢一家大概有将近200万吨的年产量。所以美国在这个产业链上是非常落后的。
据我所知,2016年、2020年包括2024年,美国政府都出了一些政策,无论是反倾销也好,还是说《大而美法案》也好,都会去禁止这些美国的公司从中国来进相关的材料,为了想要发展制造业的回流。可是短期来说,美国的制造业并没有能力去承接住这么大的一个体量的需求,这也造成了过去两年变压器的交期一直没有有效地去缩短。
泓君:我看到最近英伟达提了一种新的供电方式,800伏的直流输电的方法。大家可不可以讲一下,现在整个数据中心跟电厂到底是在用新的这种方式去做,还是在用传统的这种方式去做?它的区别跟效率是怎么样的?

当前的Data Center电源架构 图片来源:NVIDIA blog
王辰晟:英伟达这一次OCP展会上讲的800伏直流,更多的是用于数据中心以内整个AI数据机柜的输电。它替代的是之前的54伏机柜。
我们先退一步来说,整个电是怎么产生的?高压电线如果是跨距离传输,是350千伏的这样一个体量;到本地的一个变电站,大概是3.8到35千伏中压的电;它到数据中心之内,可能通过一个不间断的power supply(UPS)传到数据中心里面,目前来说一般是480伏或者415伏交流电,再通过一个交流转直流,把它转换成54伏去给所有的芯片或者服务器去供电。
为什么要去把54伏拉到800伏?是因为目前整个数据中心就以NVIDIA的几代产品为例,它之前的Hopper,我们所说的H100,它的一个机柜可能是一个30千瓦左右的数量级。最近一代GB200,它一个机柜就到了100千瓦。它之后的Vera Rubin超级芯片,包括之后的这个卡,都是要往400千瓦甚至到1兆瓦一个机柜去做。
NVIDIA自己有一个数据,如果你还是用54伏做柜内的传输,你一个1兆瓦的机柜就需要200公斤的铜用来做传输电。功率是和电压的平方成正比的,也就是说你去增加电压可以大大地减少效率的损失。800伏直流和54伏直流,如果是一兆瓦的机柜,54伏可能需要在传输上损失22%的效率,这个损失太多了,如果拉到800伏的话,它的损失会降到0.6%,这是好几个数量级的进步。但现在数据中心还没有做到800伏的直流的能力,现在主要还是以415伏交流为例。

NVIDIA 800 V HVDC 架构 图片来源:NVIDIA blog
泓君:为什么并没有?是进不去电网吗?
王辰晟:是因为现在没有按照这个标准去做。有一点很重要就是,NVIDIA老黄说他能自己造出所有的芯片,但是他没有电去power他的芯片,所以他现在定这样一个标准,是想要整个生态链共同进步。如果你还是415伏的交流、54伏的直流,它一个1吉瓦的数据中心需要差不多50万吨的铜,这是没有人可以提供得了的。如果是做成这样,下一步可能就是缺铜了。所以他不得不要去促使整个产业生态链往这个方向做转变。
泓君:那卡点在哪呢?
王辰晟:我觉得更多是在大家怎么去理解它这一周刚出的规范,以及怎么去把供应链拉起来去做规范的理解、设计、生产。
Ethan:是不是可以这样理解?就是这个规范其实就是看到今天的缺电很严重的现实情况,要重新定义这个行业里边的各项标准。现在刚刚发布这个新的标准,还需要一点时间让整个生态链的各个环节的企业重新设计产品,进入到这样一个新的标准当中。下一代的数据中心就有可能会根据这个标准去建立起来,这样的话整个数据中心的效率都会提高很多。
王辰晟:是的。
泓君:我看见现在大家虽然没有去建800伏的直流,但是相比于你提到的54伏的直流电,已经有人开始尝试比如说200伏、400伏,大家已经在往这个方向去靠了,只是说我们还没有把标准一下拉得那么高。
王辰晟:在英伟达的白皮书里面也有提到它的几个阶段,就是从415伏交流到54伏的直流转换,也有415伏的交流直接转成415伏或者400伏的直流去做这个机柜;再下一步,把整个配套的基础设施提到800伏,去内部直接做直流的这个传输;甚至于到最后的ultimate stage,就是用固态变压器在数据中心的输电入口,直接做到800伏直流,当中可以去除一些UPS以及整体的效率,把从92%~98%的效率,提到98.5%,甚至99%的end to end效率。

图片来源: Open Compute Project
泓君:Ethan,是不是这种数据中心的高压直流电跟整个居民用电方式是完全不一样的?就是这个方式它是不可以提供给居民用电的,就限定了它只能做数据中心。
Ethan:我的理解大概确实是这样的。但是我觉得现在确实是到了一个时机,数据中心内部应该用高压直流来提高它的效率了。2025年在美国的数据中心所有用电量加起来,会占整个美国用电量的大概5%左右(只比今年整个加州的用电量稍微低一点),而这个数字大概会在2030年的时候会翻倍。这是一个很大的用电行业,完全值得为这个行业设计一套专有的用电的标准,就比如说英伟达的800伏,这样的一个标准能够让整个占据美国用电10%的这个行业的效率,比如说提高20%左右,这是非常大的经济收益。上周公布的这个报告,就是这一切的开始。
泓君:大概给听众一个印象,我们用ChatGPT搜索一次会有多耗电?它差不多就是用Google搜索一次耗电量的10倍。我另外看到一个数据是说中国今年整个电力的建设有495个吉瓦,美国今年的整个电力的建设是50个吉瓦。为什么中国可以建设得那么快?而美国在这么缺电的情况下,它的建设速度还是这么慢?
Ethan:总体来说有几个主要的原因吧。一个就是中国的电网很多时候它是有一个集中规划的概念,这和政治制度经济制度是息息相关的。而美国的很多电网它是小区域局部规划,但是很少有跨区域的大规模的集中的规划。当然美国也意识到有这个问题了,也开始做出这方面的改进,也有一些政策出来去鼓励这样做,但是这方面也刚刚开始。这和中国一直以来的电力从西边送到东边,从南方送到北方,通过高压直流,通过整个中国大规模的电网建设来实现电力的大规模传输,完全不能同日而语的。
还有一方面就是在建设电网的过程中,你需要很多的审批。而在中国的话它有一个相对集中的一种管理的方式吧。而在美国的话很可能你的高压传输线需要经过一个农场主,这个农场主说“不,我不允许你在这建”,那你可能就要绕道个几百个英里。而这个过程中可能你会遇到几百个这样的农场主。
泓君:这就是为什么美国高铁建不成啊。

西电东送工程 图片来源:中国电力
Ethan:对,是同样的一个道理。所以还有一个数字可以给大家参考,在美国建一个新的长距离的传输线,大概需要的时间是7到12年,这是非常漫长的一个过程。所以在过去的几年,美国几乎没有大规模的传输线建设。但这只是整个电力系统建设中的一角,其实如果你看输电也好配电也好,整个建设都会遇到很多类似这样的问题。
泓君:长距离传输线的建设主体是谁?是政府吗?如果现在来做这件事情的人不是政府而是科技公司,因为他们其实有实打实的利润跟业务需求上的考量,所以他们是不是在做同样的事情的时候,推进速度会更快?
Ethan:我觉得在整个电力系统建设的某些环节,科技公司是有优势的。但是在传输线进入这个环节可能跟电力公司遇到的问题是一样的,你还是要去跟无数人去谈判,这个还是非常难的。所以现在科技公司采取一个策略就是,我不去参与很多大规模的传输线的建设,但是我走另外一条路,比如说我自己去建我自己的发电站,而我就把这个发电站建在我自己的数据中心附近不远的地方。很多东西是在它的经济资源、政治资源的影响力范围内,它可以做得更快更好的。
泓君:数据中心的建设是需要大量的水吗?
Ethan:在建设过程中水用得并不多,在运行的过程中看你是用什么样的方式去制冷,有些液冷它是闭循环的,用水也不是很多。但是在数据中心运行过程中,用水量和用电量往往有一个此消彼长的关系,这也是一个矛盾的点。所以在数据中心的建设过程中,或者在选址的过程中,每个公司都会看,在这个地区是电更多一些还是水更多一些,然后根据当地的禀赋,它可能会制定一个策略。
泓君:对,现在整个科技巨头它在建数据中心的时候,还是有遭到很多当地居民的抵制的,不管你说污染还是缺水,就是各种各种各样的问题可能都会有。所以再回到我刚刚提的那个问题,为什么中国建设得这么快?Ethan,你的观点是行政效率的问题?
Ethan:我觉得可能还有一个原因就是成本的问题。一个是设备的成本,一个是人力的成本。中国在过去的可能10年左右,在政府还有政策的推动下,整个清洁能源行业的发展是非常非常快的。一个简单的数字可以让大家留下深刻印象,就是中国在一年的太阳能的装机容量相当于世界上所有其他国家加在一起的总和,甚至还更多。这也就意味着整个行业已经把清洁能源的发电成本已经压得非常非常低了。比如说我们看到大规模的储能等等,像美国的设备可能是中国价格的两倍左右。所以这个成本的差异也是一个比较大的原因。
泓君:我觉得我们之前的节目聊10亿美元的独角兽就算很大了,之后我们聊大模型可能是几百亿、几千亿的这种估值,今天我们是在聊一个trillion dollars,就是万亿美元的市场,感觉我们的野心也是在慢慢变大了。
王辰晟:没错。
Ethan:没错,这个投资的规模实在是太大了。
泓君:对,我觉得这个可以说是载入人类史册的一个投资时期。非常精彩,谢谢两位。

