算苗科技发布大模型时代原生芯片TokenPU 极致性能对标国际高端芯片

来源：集微网 17 小时前

近日，国产3D AI推理芯片设计企业算苗科技举办媒体沟通会，公司创始人&CEO汪福全、首席AI科学家楼建光与媒体深度分享了3D堆叠AI芯片前沿技术与产业落地方向。算苗科技6月15日发布消息，成功流片全国产自研3D TokenPU芯片A4E。

技术范式转移：从2.5D GPU到3D TokenPU

汪福全指出，大模型时代AI芯片设计正经历一场深刻的范式革命——从二维平面、2.5D封装进入真正的3D时代。这不仅是封装技术的升级，更是算力架构底层逻辑的根本性转变。

在GPU时代，通过将GPU与HBM封装在同一基板上，形成了2.5D的架构形态，芯片主要服务于图像处理和并行计算。然而，这种架构存在固有的内部通信瓶颈：计算单元与存储单元之间的数据搬运距离长、带宽受限，在大模型推理场景下将逐渐成为性能的桎梏。

与此同时，Token正在成为大模型时代的基本计量单位，其地位类似于数字化时代的Bit。汪福全表示：“智能的产生以Token的形式输出，就像电厂发出的电一样。Token是衡量智能规模与消耗量的统一标准。”目前，Token的需求量在短短数年间增长了数百至上千倍，且仍在以惊人速度增长。而制约这一增长的瓶颈是芯片性能与电力能耗。

在此背景下，算苗科技提出TokenPU的概念，并定义为大模型时代的原生处理器。与GPU、NPU不同，TokenPU专为大模型推理而生，采用3D混合键合和逻辑折叠技术，实现芯片间的垂直互联，通过百万级互联线数带来极致的内存带宽，从根本上解决大模型的“内存墙”问题。

汪福全强调，3D堆叠可大幅缩短数据搬运距离，显著降低能耗。这是满足大模型推理对极致能效比需求的关键路径。

产品里程碑：A4E成功流片，A4S定义完成

目前，算苗科技的首款TokenPU芯片A4E，已完成流片。这一里程碑标志着芯片设计工作全部完成，正式进入制造与封装测试阶段。

汪福全解释流片的重要意义表示：“流片意味着我们的设计指标已经达成，设计流程全部畅通，可以交付给晶圆厂进行制造。这是芯片整个生命周期中极具标志性的时刻。”预计明年年初将可实现芯片产品的量产交付。

汪福全还透露了算苗科技第二代产品的规划。目前第二代芯片A4S的芯片定义已基本结束，按照规划，A4S将于2027年2月底前后流片，形成“一代流片、一代定义”的迭代节奏。

在性能方面，相比第一代A4E，A4S的Token处理效率至少实现翻倍。值得强调的是，这一性能飞跃的产品将完全基于国内成熟制程和供应链实现，不依赖海外先进制程。

市场战略：推理为主，架构创新实现换道超车

当前，AI算力市场的需求结构正在发生根本性翻转。推理与训练的需求比例已从几年前的2:8翻转为8:2，推理已成为算力消耗的绝对主力。这一转变背后，是Agent范式的普及与大模型应用场景的爆发。

但随着推理需求量的指数级增长，能耗成本也成为制约行业发展的核心因素。数据显示，在美国每百万Token的生成成本约为0.6美元，每个Token的背后都是实实在在的电力消耗。

算苗科技的战略选择是：通过架构创新，基于国内成熟制程和供应链进行大规模量产，实现极致的芯片性能与能效比。

“如果我们在GPU赛道上追赶，受限于制程和HBM等因素，但通过3D堆叠的架构创新，我们完全有能力对标乃至超越国际云端大芯片。”据了解，算苗科技团队已深耕3D堆叠芯片技术多年，核心路线聚焦后摩尔时代3D堆叠，致力于突破AI算力内存墙。目前与国内核心供应链伙伴已磨合多年时间，打通了3D芯片制造的复杂工艺环节。

随着A4E的成功流片，国产AI芯片在3D堆叠这一全新赛道上迈出了关键一步，将为大模型时代的算力供给提供独具特色的中国方案。

相关新闻