苹芯科技 N300 存算一体 NPU,开启端侧 AI 新征程
1 天前 / 阅读约6分钟
来源:集微网
科技创新企业苹芯科技深耕存算一体技术,推出N300存算一体NPU,在不改变传统MCU形态的同时为传统MCU芯片赋予AI能力,突破传统MCU的算力瓶颈,为端侧设备加载AI提供了革命性的解决方案。

随着端侧人工智能技术的爆发式增长,智能设备对本地算力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为制约端侧AI性能突破的关键掣肘。在这一背景下,存算一体芯片凭借低功耗、高带宽,以及相对的通用性能,正在成为赋能智能终端、物联网设备以及边缘计算场景的核心动力。

科技创新企业苹芯科技深耕存算一体技术,推出N300存算一体NPU,在不改变传统MCU形态的同时为传统MCU芯片赋予AI能力,突破传统MCU的算力瓶颈,为端侧设备加载AI提供了革命性的解决方案。苹芯科技在接受集微网采访时表示,目前存算一体技术在国内外企业的不懈努力下已经实现商业化应用,存算一体芯片也即将全面进入千行百业,为人工智能的大规模应用提供不竭的算力支撑。

架构创新,存算技术释放数十倍能效比提升

存算一体并非最新提出的概念,发展历程可以追溯到上个世纪。1969年,斯坦福研究所的Kautz等人首次提出了存算一体计算机的概念,旨在将计算单元与存储单元融合,实现数据存储与计算的同步进行。此后,多伦多大学(1992年)和伯克利实验室(1997年)都相继尝试以逻辑电路的形式拉近存储与计算的距离。

2000年以后,随着大数据以及人工智能技术的发展,人们对于并行计算的需求日益增长,存算一体技术受到更多关注。特别是Transformer架构的流行,生成式模型已经出现上千亿,甚至更高参数量的需求,对存储的要求也越来越高、带宽越来越大。传统冯·诺依曼架构的数据搬运模式很难满足AI芯片的计算效率,这就给存算技术带来了新的商业化空间。

根据苹芯介绍,传统芯片是先把数据从存储系统中读取出来,放到计算单元当中进行运算,然后再把计算结果传回到存储系统当中。这种大规模的数据迁移导致了带宽的瓶颈和功耗的浪费。存算一体的核心创新在于“计算发生在数据存储的位置”。它从根本上避免了上述情况的发生,同时带来一系列的性能优势。以苹芯科技开发的SRAM存算单元为例,它直接在存储器内部完成乘累加运算,彻底消除了数据搬运需求。测试数据显示,这一技术可将数据迁移能耗降低90%以上,同时将能效比提升至27.38 TOPS/W,较传统架构提升数十倍(该成果已入选ISSCC 2022)。

目前,存算一体技术的商业化进程已处于成熟落地应用阶段,大规模应用即将全面铺开。比如搭载了存算一体NPU的MCU芯片,已用于智能监控摄像头等设备中,实现人脸识别、行为分析、目标检测等视频图像的实时分析和处理;在智能手表、智能手环等设备中,进行心率监测、运动姿态识别等时实数据监测和分析。

聚焦终端侧,规模商业化突破的现实选择

通常,工业界在评价一个架构的商业化前景时,除了关注技术层面的发展潜力以外,还要考虑通用性、快速迭代能力,以及成本等核心指标。此外,相比冯·诺依曼架构来说,存算一体架构的专用性更强。由于从设计上是将计算单元与存储单元融合在一起,在进行技术迭代时也会面临更多的挑战。这些都是业界探索存算一体技术应用落地时,需要考虑的要点。因此,苹芯指出,相对于云端高度复杂的生态、技术挑战,率先从终端侧寻求突破是更加现实的选择。

首先,云端计算往往被定位成一个平台,因而更加强调泛化能力,也就是计算的通用性。这对更倾向于专用计算的存算一体芯片来说,设计上更具挑战性。但是在终端侧和边缘侧的MCU芯片进行的更多是一项或者几项指定功能,比如人脸检测、语音识别等。这就意味着,终端侧的芯片并不需要那么强的平台化能力,它的应用是相对固定的,因而算法也相对固定,与之相匹配的计算和存储的能力也就相对固定。这就让存算一体芯片有了更多用武之地。

其次,很多终端侧的应用场景对芯片的能效比有着极高的要求,一方面要求产品具有轻量化、便携化的趋势,需要考虑无法插电源工作的情况;另一方面又有着从非AI转向AI类产品的升级需求。这就需要有高能效比的技术来支撑,在这方面存算一体芯片更具优势。

此外,终端侧的市场空间同样足够广阔。机构预测,2025年可穿戴类产品的市场规模将超过1000亿元。今年CES大展上,AI眼镜和AI玩具成为最火爆的两类新品。预计2025年全年AI眼镜出货量可达几百万台,WellsennXR预测到2029年全球AI眼镜销量或将突破5500万副,渗透率将提升至3.48%,市场规模更是有望突破825亿元。人工智能向端侧市场的大规模渗透已经开始。

正是基于这样的判断,苹芯科技面向终端侧模型,推出了基于SRAM的存算一体NPU——N300。这是一款可集成于SoC芯片当中的IP核,可用于执行神经网络的加速任务。NPU可以提升神经网络效率,涵盖矩阵加速、非线性加速等功能。用户基于NPU可以打造端侧SoC、MCU等产品。苹芯表示:“苹芯科技的比较优势在于产品的快速迭代能力,强调以小成本的迭代方式,小步快跑、快速验证,为实现存算一体技术的大规模商业化提供了必要条件。”

此外,N300 在架构设计、性能指标(如算力、功耗、带宽等)方面还有许多创新之处,比如存算融合阵列:256KB SRAM中嵌入计算单元,面积效率达0.26TOPS/mm²;动态精度引擎:支持4-16bit混合精度,语音模型量化后精度损失<3‰;多核弹性扩展:单核0.5TOPS,十六核集群可达8TOPS,工业质检场景吞吐量提升273%。

这些技术指标与性能集于一体,使N300具备了成为终端侧优秀AI解决方案的潜在实力。

生态与模式,N300在实际应用中的优势所在

目前,有越来越多MCU厂商开始将AI功能深度嵌入到芯片设计之中,包括ST、瑞萨、恩智浦以及众多国内企业。它们大多采用集成NPU的方案,让芯片得以在端侧直接执行图像识别、语音识别、预测分析等AI任务,减少对数据回传云端的依赖。

为了满足用户的需求,苹芯科技也在不断调整自身的商业模式。首先,苹芯科技不仅推出N300 存算一体IP核,还同时开发了一款SoC芯片——S300,在神经网络加速部分集成了基于28nm工艺的N300内核,主打多模态和环境感知功能。这一方面使苹芯科技具备了向系统厂商提供芯片级解决方案的能力,也意味着N300 作为一款IP核是已经得到验证的产品,芯片级用户在采用它的时候,无需担心产品的可靠性。

其次,在生态方面,N300 支持开源编译器TFLM。AI加速芯片并不像存储芯片那样是一个标准化的产品,可能100家NPU公司,就有100种解决方案。不过目前很多MCU公司已经支持开源框架。而N300支持TFLM,意味着与多数MCU公司采用了同一框架,这样在软件上就与MCU是统一的。芯片用户可以直接使用N300方案进行训练,实现一键部署。

第三,N300是一款多模态融合感知NPU,对于语音、图像,以及其他传感数据都能给予支持。也就是说,在终端侧的有限应用中,它是可以做到相对通用,与其他面向终端侧专用解决方案相比,具有更强的泛化优势,确保了客户的易用性。

再加上存算一体芯片天然具有的能效比优势、带宽优势,N300完全具备成为一款面向终端侧AI市场优秀解决方案的产品素质。事实上,N300已经在市场小范围推广,并取得不少成功的商业化案例。

以TWS耳机降噪案例为例,近年来TWS耳机市场火热,很多厂商采用AI方案实现本地化语音增强与环境降噪。N300可被集成在22nm工艺的芯片当中,实现36 GOPS@64MHz的算力,支持DCCRN网络(含LSTM)的实时推理。适配了微型化的终端设计;同时发挥极强的功耗控制效能,平均工作功耗<1mW,比传统的DSP方案降低70%,延长耳机续航30%以上。

继续深耕,苹芯科技为边缘未来布局

展望终端与边缘侧AI市场发展趋势,“存算一体”技术完全有能力成为该领域的主流芯片架构之一。苹芯表示,未来的计算架构大致有三条发展路径:一是存算一体。其将计算单元与存储单元融合,在实现数据存储的同时直接进行计算,以消除数据搬移带来的开销。二是3D堆叠。这种架构出于对存储带宽的极致追求,因此是天然是反对存算一体的。第三条路径则是在前两种方案之间做平衡,也即近存计算。它希望在不改变计算单元,也不改变存储单元的情况下,尽量缩短存储与处理器中间的距离,以此改善芯片的性能。

在这三条路径中,如果计算和存储功能相对明确,那么存算一体方案就更具优势,可以更加充分发挥架构带来的优势。当然,目前的存算一体要想实现大规模商用仍有很多技术瓶颈需要突破,包括工艺兼容性的改善,比如eNVM存储器的稳定量产;提高设计工具链的成熟度,实现自动化EDA工具与跨平台编译器的支持,加强代工厂标准IP库的建设与优化多场景下的制造成本,以便提高产业链的整体协同能力。同时还需要构建开源生态,以解决开发门槛高、改善算法适配碎片化等问题。这样才能将存算一体从技术优势转化为规模化落地的能力。而苹芯科技的优势在于能够在较短时间内,只要客户立项并确定其所采用的工艺,就可以进行快速定制并实现交付。这可以成为用户大规模商用中的一大助力。

从市场角度来看,未来3~5年,存算一体芯片将在AIoT和边缘计算领域迎来爆发式增长,市场潜力集中于实时健康监测(如可穿戴ECG实时分析)、工业预测性维护(振动/温度信号边缘诊断)及智慧家居(能效优化、数据安全与保护)等场景,这就需要高能效比与低成本的产品,精准匹配边缘侧对“高能效+低成本+实时处理”的核心需求。

苹芯科技已经推出支持图像、语音等多模态融合处理的N300 ,未来将把这些核心能力,比如CNN/Transformer硬件加速、动态数据流调度引擎向更多模态扩展,推出新的解决方案。“存算一体仍然处于快速发展阶段,这个技术是不断被唤醒的,不断有新的热点出现。我们已经推出一颗芯片和一个IP,实现了多模态融合感知。下一步我们将开发一款LPU(语言处理单元)方向的产品,针对CNN/Transformer硬件加速,把传送这件事情做到边缘侧去。”苹芯透露。

为此,苹芯科技未来将聚焦22/14nm工艺升级与新型eNVM(如MRAM/RRAM)存算架构集成,通过混合精度计算优化和稀疏化加速引擎提升算法效率,同时完善开源编译器工具链(支持多模态模型一键部署)并拓展异构计算IP库。

苹芯科技还计划在未来的研发工作中,进一步提高存算一体核心单元计算能效比,并联合代工厂推进eNVM工艺量产,构建覆盖智能穿戴、智慧家居等场景的“存算+”生态,突破设计自动化工具与跨平台适配瓶颈,加速技术规模化落地。