英伟达回归遇阻,谁能替代H20?
来源:36kr 14 小时前

9月,国内入秋,气温骤降,英伟达重回中国市场的步伐也有些凝滞。 

两个月前,仲夏之时,英伟达创始人黄仁勋穿着皮衣落地北京,带来H20芯片在中国市场“解禁”的消息。但没过多久,又传来H20停产的风声。 

作为中国市场定制的“特供芯片”,H20深陷“后门”疑云,被质疑“既不安全也不先进”,市场需求疲软。不愿意放弃中国市场的英伟达,计划推出性能更强的B30A芯片,以技术优势重建市场信心。 

H20禁售加上“后门”疑云,英伟达的空窗期成了国产厂商补位的良机。这半年来,华为、寒武纪等大力推广自家芯片,在政务云等领域市占率飙升,一些科技大厂也开始批量采购国产芯片。 

在黄仁勋的最新访谈里,他提及中国在AI芯片上落后两三年的说法,驳斥说:“得了吧,他们只落后我们几纳秒。”话里话外流露出一种迫切,希望美国放开管制,让英伟达重回中国。 

眼下,英伟达回归遇阻,腾出来的市场空白,都有哪些国产AI芯片厂商竞逐?谁有机会率先取代H20?国产AI芯片厂商追赶英伟达的路上还有哪些阻碍? 

谁在竞逐英伟达的遗留市场?

过去,大多数公司采购算力芯片时,首选必定是英伟达。从生成式AI爆发至今,英伟达GPU凭借卓越的性能、稳定的驱动和完善的CUDA生态,筑起强大的护城河。

据TechInsights数据,在GPU市场,2023年全球应用于智算中心的GPU总出货量达到了385万颗,其中,英伟达的市场份额接近98%。 

垄断性的市场地位,使英伟达成为压在国内外科技大厂心头的大山。在国外,微软、谷歌、亚马逊都在一边狂买英伟达芯片,一边自己造芯;而在国内,受限于政策禁令,AI公司无法获得先进的英伟达芯片,随时面临断供风险,只能寻找国产替代方案。

好消息是,英伟达留给国产厂商的空间足够大,能容纳多家公司同场竞逐。 

今年二季度,受禁售H20影响,英伟达中国区营收只有27.69亿美元,比去年同期的37亿美元下降24.49%。去年全年,英伟达中国区营收171.08亿美元。业绩会上,黄仁勋也预测中国市场年增长率大约50%,光今年就可能有500亿美元的商机。 

这数百亿美元的市场,英伟达目前只能干着急。在三季度的业绩指引上,英伟达没有假设任何对华出口H20的情形,而这也是中国公司的好机会。 

在竞逐H20遗留市场的公司里,最被看好的公司是华为和寒武纪。

从单卡性能来看,华为昇腾910B/C,算力已超过英伟达H20。除华为外,据行业自媒体“半导体综研”整理,FP16算力能达到300TFLOPS(每秒万亿次浮点运算)以上的国产芯片,只有寒武纪的思元590;壁仞科技在2022年推出的BR100,其FP16算力能达到1024TFLOPS,但因受到制裁无法量产。其他如百度昆仑芯、阿里平头哥、摩尔线程等自研主流产品都已经接近H20水平。 

当然,国产芯片的目标不是阉割过的H20,最先进的国产GPU依旧落后英伟达最新产品两代,算力差距约落后3倍。但至少,逐渐替代昂贵但不先进的H20已经具备可行性。 

除了技术追赶上来,外部环境也在变好,发展国产算力的政策扶持不断,互联网巨头和运营商们纷纷加码算力资本开支,为国产AI芯片打开了市场空间。 

今年以来,国内AI芯片厂商业绩突飞猛涨。短暂成为A股“股王”的寒武纪,今年上半年收入28.81亿元,同比暴涨了4348%,首次扭亏为盈,净利润10个亿。 

华为的大单也源源不断。据行业调研报告,今年昇腾910B全年计划出货约40万颗,客户主要是运营商和地方算力中心;910C计划出货30万颗,以互联网大厂为主。不久前的华为全联接大会上披露,华为新推出的CloudMatrix 384超节点累计部署300多套。 

阿里平头哥、百度昆仑芯这两家互联网巨头旗下的芯片公司,也有着稳定的内部需求和丰富的应用场景,在充沛的资金下能够快速迭代产品,再反哺互联网大厂的云计算和AI业务;摩尔线程、沐曦股份、壁仞科技等新锐也在参与市场竞逐,这些创业公司在技术创新、兼容性设计、市场定位上以灵活见长。 

摩尔线程在其IPO报表中披露,2025年上半年营收7.02亿元,正在洽谈的AI智算领域合同超过17亿元,其还与中国移动签署过万卡级合作项目,封装订单规模超10亿元。 

沐曦股份也曾连续中标两份AI训推一体机大单,金额达14.88亿元;截至2025年8月,其在手订单(不含税)为11.4亿元,客户涵盖新华三、算丰、汇天网络等。 

拿下订单意味着国产AI芯片进入到技术迭代和商业变现的良性循环中。摩根士丹利在其最新报告《中国人工智能:沉睡的巨人觉醒》中预测,在外部压力下,中国已全力迈向完全独立,并正在以比预期更快的速度构建自给自足的生态系统,中国人工智能芯片自给率将从去年的34%飙升至2027年的82%。 

模仿英伟达,还是另走一条路?

追赶英伟达,在一两年以前还是遥不可及的事情。

摆在国产厂商面前的有几座难以逾越的大山:制程优势、供应链稳定性、软件生态。 

即便是最先进的国产AI芯片,与英伟达的最新产品都有两代的差距,昇腾910C单卡BF16算力只相当于英伟达GB200单卡的31%。根本原因在于制程落后——华为只能用中芯国际的7nm多重曝光工艺(近似7nm但良率很低),但英伟达可以用台积电的3nm工艺。

国产厂商也面临着供应链不稳定的问题,台积电的良率高达80%,产量稳定,成本可以随着产能爬坡不断降低,而中芯国际7nm工艺良率只有30%多。另外一个风险是,地缘摩擦对芯片行业的影响不确定,比如壁仞科技的高端芯片BR100由于台积电中止代工,迟迟无法量产。 

制程问题还可以找到替代方案,但软件生态没有英伟达十几年的积累,很难在短时间内追赶。国内某机器人公司CTO王枫告诉我们,使用GPU产品最重要的是考虑工具链的完整性,比如GPU之间的互联技术、框架的兼容性、并行计算的编程模型平台。这恰恰是英伟达耗时十多年筑起的高墙。 

英伟达生态核心是CUDA,它就像底层的Windows操作系统,全球有400多万开发者为它构筑加速库、主流框架和大模型,但CUDA只能在英伟达芯片上使用,迁移到其他芯片上就要重写代码,光人力和测试成本就高达数千万元。 

因此,生态是英伟达最大的底气。以被阉割的H20为例,英伟达降低了H20的算力,只有H100的15%,但是保留了HBM3显存和NVLink技术,就是想用“低性能+强生态”稳住市场地位,让中国公司买更多卡来满足需求。 

在硬件性能、软件生态和供应链都落后的情况下,国产厂商根据自身能力和市场需求,走上了不同的追赶路线。 

华为是受限最多的一家,但自身有着非常好的产业基础和技术能力,因此选择了“全栈自研”,从芯片、软件、协议到服务器、交换机、存储等,全部自己做。 

制程被卡脖子,华为就把两颗910B芯片封装在一起使算力翻倍;HBM存储技术被卡脖子,华为就自研HBM;卡间互联速率慢,华为就研发对标NVLink的灵衢UB。这些系统级的优化创新避开了制程限制,解决了单卡算力差的问题。

质量不够,数量来凑。沿着这个思路,把很多芯片、内存、网卡像“拼乐高”一样堆叠在一起,用高速线缆传输数据,就是华为推出的“超节点技术+集群战略”,代表性产品CloudMatrix 384超节点集群,BF16算力总和超过了英伟达NVL72系统。 

华为也在培育生态。想让人用自家的芯片,就得让黏性超高的CUDA开发者和应用厂商迁移过来,这需要分两步,第一步是让自家芯片可以兼容CUDA,第二步是向他们提供基于自家生态的工具和框架。 

华为推出的异构计算架构CANN对标CUDA,已经能兼容80%的CUDA API,支持85%的CUDA算子自动转换,但转换后性能会损耗15%-20%;CANN还能兼容PyTorch、TensorFlow这些主流框架,华为也自研并开源了MindSpore全场景人工智能计算框架,开放灵衢互联2.0协议规范,试图吸引更多开发者共同完善生态。 

华为做“大而全”,一边模仿一边自研,多数国内厂商则只能做“小而美”,从垂直、细分市场切入,要么兼容英伟达,用性价比撬动客户,要么针对特定需求做定制芯片。

国产厂商最常见的一种做法是“NV兼容”,通过中间件把现有CUDA代码映射到国产芯片指令集,让硬件“听懂”开发者的意图。芯片使用者可以在不大幅重写代码的前提下,把工作任务迁移到国产芯片上运行,降低了使用和切换的门槛。这种做法是市场导向,先靠模仿打开市场,站稳脚跟,让自己活下去,后面才有机会发展自己的生态。 

昆仑芯和华为都在验证类似方案,且在一定程度上获得了市场认可。2025年8月下旬,中国移动2025年至2026年人工智能通用计算设备(推理型)集中采购项目中,百度昆仑芯在“类CUDA生态”标包中几乎包揽前三个分项的头名,总中标订单规模达到十亿级。 

做定制芯片的佼佼者是寒武纪。与英伟达所做的通用GPU不同,寒武纪的AI芯片属于ASIC(专用集成电路),可以应用于云服务器、边缘计算设备、终端设备上,在对延迟、功耗和成本敏感的场景中,展现出更高的性价比。 

不管是兼容模仿,还是全栈自研,都是在用自己最优势的能力,在英伟达的夹缝里寻找突破口,这条路注定坎坷。 

追赶英伟达,是漫漫长路

硬件和软件都在缩小差距,但要让市场相信国产厂商的产品可用,是一个极其艰难的过程,尤其对那些已经使用英伟达芯片的开发者。

一个已经在英伟达GPU上训练好的大模型,要搬到国产AI芯片上运行,中间有两道坎。 

第一道坎叫算子对齐。过去十几年,英伟达和全球开发者用CUDA写下了海量的算子库。要迁到国产芯片上,就得把一个个算子翻译成国产芯片能听懂的语言。这不是简单的复制粘贴,而是成千上万条代码的“逐句翻译”,需要大量人力和时间。

第二道坎是分布式重构。大模型训练常常需要几百上千张卡一起算,英伟达有自己成熟的沟通协议,H20的NVLink带宽是昇腾910B的2.25倍,训练万亿参数大模型时,多卡协同效率能高10%-15%。这在千亿级模型训练里,可能差好几周时间。

有机器人开发经历、目前正从事芯片研发工作的张振尧表示:“在迁移顺利的情况下,芯片硬件性能能发挥到70%到80%;如果算子勉强适配,可能只有30%到40%。”这也是为什么即便国产芯片在参数表上标注的性能比肩英伟达,真正跑起来却常常不如预期。 

王枫的经验印证了这一点。他所在的机器人公司曾经长期使用英伟达GPU,从4090、5090到H100、H20都有涉猎。两年来,随着英伟达芯片价格高企、获取困难,他们开始尝试华为昇腾的云端算力。 

真正让他焦虑的,并非单纯的硬件,而是新平台、新架构带来的不确定性。英伟达CUDA深度绑定在硬件里,几乎所有主流的机器学习框架都得跟它打交道。比如开发者们常用的PyTorch,对CUDA的支持是最全面的,两者无缝衔接,用起来又快又稳定。 

王枫曾尝试用华为芯片跑Llama等比较流行的几个模型,几乎每个模型都需要华为单独适配后才有可能在它的芯片上运行,这直接导致模型更新滞后。华为芯片目前只适配了160多种模型,而在英伟达的芯片上可以直接跑几万种模型。 

华为分别推出了对标产品,但在王枫看来,如果没有明显的优势和终端市场需求,这些产品很难撬动市场。这就像平面设计师对Photoshop、会计师对金蝶软件的依赖,几十年如一日,已经固化成行业习惯,不是所有人都会学习新技术,能学习的也会考虑到机会成本。

中小开发者考虑易用性,对于大公司,整体迁移的成本更是天价。互联网大厂现有的算力基础设施大部分是基于英伟达架构,要是全换成国产,IDC的供电系统、网络拓扑等底层架构都得改造,改造成本能达到硬件采购价的2-3倍。 

由于CUDA生态更成熟,英伟达集群的运维人力成本也要低很多,而华为集群由于芯片制程问题,体积更大,规模化部署还要额外投入数倍的散热、电力和机房空间成本。 

制程问题也造成国产芯片采购成本更高,且供不应求。但由于H20的安全问题和断供风险,国产芯片to G需求很大,to B的需求也在增长,迁移是不得已的事情,厂商和客户需要共度时艰。 

相比技术和生态上短时间难以弥补的巨大差距,国产厂商更容易发力的地方,是周到的服务和更有吸引力的价格。

张振尧回忆,使用英伟达芯片时,遇到问题只能从开发者论坛、社区的公开文档找答案,很难获得官方工程师的支持,“英伟达的支持体系是很成熟的,但同时也是分层的,不对我们这样的小客户开放”。 

相比之下,和国产芯片供应商接触时,他能直接和原厂工程师反馈问题,对方会派两三个工程师和他们一起去调试,有时候还会拉会,出新的版本给他们做测试,愿意为客户解决一些问题。他说,这在英伟达是不可能发生的。 

算力芯片研发人员唐诗(化名)也有类似感受:“国内芯片卖出去,基本都得有工程师驻场维护,协同客户上线业务,进行开发。”这样的故事也曾发生在华为。据36氪报道,华为联合讯飞发布“星火一体机”的背后,是不惜人力成本,调配了几百名工程师下场帮讯飞调校参数。 

在不惜成本的人力投入下,一定程度上弥补了生态和性能的欠缺,让国产厂商撕开了一道口子。短期内,在推理场景和边缘计算方面,国产芯片已经展现出一定的成本优势,但在训练领域,尤其是训练千亿参数以上的大模型,H20还有比较强的生态和技术优势,暂时还没法被替代。国产芯片还需要两到三年的技术迭代,也需要下游的封装、制造环节同步突围。 

产业链上下游整体进步,今年DeepSeek-R1模型的发布就是一个很好的例子。在这之前,大多数可被使用的开源模型来自美国,从底层适配开始就很难与中国硬件做好兼容。DeepSeek-R1发布后,中国在模型和硬件上有了同时可用的方案。 

8月下旬发布的DeepSeek-V3.1,也针对国产芯片做了优化。不久前,腾讯也宣布已全面适配主流的国产芯片,并希望通过异构计算平台整合多类芯片,提供高性价比的AI算力解决方案。越来越多客户加入到国产芯片阵营,替代的速度也会越来越快。 

从服务到迁移,从生态到工艺,国产AI芯片厂商正经历着一场艰苦的追赶战。他们没有捷径,只能靠人力投入去弥补生态差距,用长期的技术迭代去对冲硬件短板,再忍受工艺成熟之前的高昂成本。这是一个注定不会轻松的过程,是一次软硬件、生态和市场的再造。距离真正替代H20,国产厂商们还有很长的路要走。 

参考资料

36氪:《围剿英伟达丨深氪》

新浪财经:《英伟达最新特供芯片RTX 6000D需求疲软,国内厂商投入自研AI芯片》

人民日报:《H20芯片解禁,怎么看?》

21世纪经济报道:《从超节点到集群 华为亮出AI算力全家桶》

信达证券:《DeepSeek-V3.1 发布,国产 AI 芯片迎接战略性机遇》

东吴证券:《半导体设备行业深度:AI芯片快速发展,看好国产算力带动后道测试&先进封装设备需求》

华创证券:《计算机行业深度研究报告:国产智算芯片,需求强劲,性能生态再进阶》

半导体综研:《全球主流算力芯片参数汇总、整理、对比(修正版)》

chosun:《China aims for 80% AI chip self-sufficiency and 30% share in humanoid robots》

wccftech:《Morgan Stanley Guts SMIC’s Huawei AI GPU Revenue By More Than 50% Due To Abysmal Yields》

简体中文 English