近日,国产3D AI推理芯片设计企业算苗科技举办媒体沟通会,公司创始人&CEO汪福全、首席AI科学家楼建光与媒体深度分享了3D堆叠AI芯片前沿技术与产业落地方向。算苗科技6月15日发布消息,成功流片全国产自研3D TokenPU芯片A4E。

技术范式转移:从2.5D GPU到3D TokenPU
汪福全指出,大模型时代AI芯片设计正经历一场深刻的范式革命——从二维平面、2.5D封装进入真正的3D时代。这不仅是封装技术的升级,更是算力架构底层逻辑的根本性转变。
在GPU时代,通过将GPU与HBM封装在同一基板上,形成了2.5D的架构形态,芯片主要服务于图像处理和并行计算。然而,这种架构存在固有的内部通信瓶颈:计算单元与存储单元之间的数据搬运距离长、带宽受限,在大模型推理场景下将逐渐成为性能的桎梏。
与此同时,Token正在成为大模型时代的基本计量单位,其地位类似于数字化时代的Bit。汪福全表示:“智能的产生以Token的形式输出,就像电厂发出的电一样。Token是衡量智能规模与消耗量的统一标准。”目前,Token的需求量在短短数年间增长了数百至上千倍,且仍在以惊人速度增长。而制约这一增长的瓶颈是芯片性能与电力能耗。
在此背景下,算苗科技提出TokenPU的概念,并定义为大模型时代的原生处理器。与GPU、NPU不同,TokenPU专为大模型推理而生,采用3D混合键合和逻辑折叠技术,实现芯片间的垂直互联,通过百万级互联线数带来极致的内存带宽,从根本上解决大模型的“内存墙”问题。
汪福全强调,3D堆叠可大幅缩短数据搬运距离,显著降低能耗。这是满足大模型推理对极致能效比需求的关键路径。
产品里程碑:A4E成功流片,A4S定义完成
目前,算苗科技的首款TokenPU芯片A4E,已完成流片。这一里程碑标志着芯片设计工作全部完成,正式进入制造与封装测试阶段。
汪福全解释流片的重要意义表示:“流片意味着我们的设计指标已经达成,设计流程全部畅通,可以交付给晶圆厂进行制造。这是芯片整个生命周期中极具标志性的时刻。”预计明年年初将可实现芯片产品的量产交付。
汪福全还透露了算苗科技第二代产品的规划。目前第二代芯片A4S的芯片定义已基本结束,按照规划,A4S将于2027年2月底前后流片,形成“一代流片、一代定义”的迭代节奏。
在性能方面,相比第一代A4E,A4S的Token处理效率至少实现翻倍。值得强调的是,这一性能飞跃的产品将完全基于国内成熟制程和供应链实现,不依赖海外先进制程。
市场战略:推理为主,架构创新实现换道超车
当前,AI算力市场的需求结构正在发生根本性翻转。推理与训练的需求比例已从几年前的2:8翻转为8:2,推理已成为算力消耗的绝对主力。这一转变背后,是Agent范式的普及与大模型应用场景的爆发。
但随着推理需求量的指数级增长,能耗成本也成为制约行业发展的核心因素。数据显示,在美国每百万Token的生成成本约为0.6美元,每个Token的背后都是实实在在的电力消耗。
算苗科技的战略选择是:通过架构创新,基于国内成熟制程和供应链进行大规模量产,实现极致的芯片性能与能效比。
“如果我们在GPU赛道上追赶,受限于制程和HBM等因素,但通过3D堆叠的架构创新,我们完全有能力对标乃至超越国际云端大芯片。”据了解,算苗科技团队已深耕3D堆叠芯片技术多年,核心路线聚焦后摩尔时代3D堆叠,致力于突破AI算力内存墙。目前与国内核心供应链伙伴已磨合多年时间,打通了3D芯片制造的复杂工艺环节。
随着A4E的成功流片,国产AI芯片在3D堆叠这一全新赛道上迈出了关键一步,将为大模型时代的算力供给提供独具特色的中国方案。

