
2025年,当谷歌启动“捕日计划”,当OpenAI开启“星际之门”,全球AI产业似乎正朝着“算力至上”的云端竞赛狂奔。但与此同时,另一场静默的变革正在终端设备上悄然发生。
5月,OpenAI以65亿美元收购由苹果前首席设计官Jony Ive创立的AI硬件公司io,计划于2026年底推出首款无屏幕AI硬件产品;11月,马斯克预言,未来5-6年内传统手机将彻底消失,取而代之的是仅作为“AI推理边缘节点”的设备;12月,字节跳动试水豆包AI手机,一石激起千层浪。
大模型的战火,正从云端算力的“正面战场”,蔓延至亿万个终端设备的“毛细血管”,一场关乎AI未来格局的端侧竞速也正式拉开帷幕。
01. 计算技术史诗级演进,驱动算力霸主地位交接
计算技术的发展都从来不是线性前进的,而是由范式转换所驱动的:
1945年,冯・诺依曼提出的“存储程序”理论,为通用计算奠定了技术基础。
1946年ENIAC电子计算机的诞生,开启了通用计算时代的篇章,以CPU为核心的计算解决了“计算有无”的问题。
2006年,英伟达发布CUDA架构,将GPU从图形渲染推向通用计算领域,其并行计算能力较CPU提升100倍以上,标志着加速计算时代的正式到来。
2012年,首个基于CUDA平台训练的神经网络模型AlexNet,将ImageNet图像识别错误率从26%降至15%,算力消耗较CPU方案降低90%,宣告了深度学习时代的正式开启。
2020年生成式AI的突破,将加速计算推向新高度——LLM(大语言模型)与VLM(视觉语言模型)的出现,创造了“认知级计算”需求。
与传统任务不同,大模型计算对并行处理能力和海量数据吞吐有着极致的需求,对算力和带宽都提出了更高的要求,特别是VLM模型需要同时处理视觉与语言数据,以形成“视觉感知-语言理解-决策生成”的闭环,加速了云端AI芯片的发展。
大模型的快速迭代打破了云端AI芯片的垄断格局,催生了“云端训练-端侧部署”的协同生态:云端算力持续堆叠,云端模型也继续向超大参数规模发展,端侧模型聚焦极致压缩,在有限算力下实现最佳性能,形成了“云端训练,端侧部署”的协同模式。云端作为AI智能的“大脑”,负责大模型训练、全局决策和知识管理,端侧作为AI智能的“神经末梢”,承担主动感知、实施决策和用户交互等功能。
今天,云端算力已完成从以CPU为主的通用计算到GPU为核心的智能计算的历史性转变。根据国际TOP500组织数据,2019年,TOP500超级计算机中近90%算力完全依赖CPU,到2025年这一数字已急剧下降到不足15%。这意味着,六年时间便完成了Intel和英伟达算力霸主地位的交接。
02. 端侧即将成为人工智能发展的新战场
AI的终极价值不在于实验室的参数,而在于对现实世界的改造能力,在于全社会对技术的采用率。云端模型部署的高延迟和高成本,使其难以适配工业、消费等端侧场景,被誉为“让小模型拥有大智慧”的模型蒸馏技术应运而生。模型蒸馏技术将千亿级模型压缩至百亿甚至十亿级,在保持较高性能的同时,大幅缩减模型尺寸和计算复杂度,使其能够部署在AI PC、本地会议纪要一体机、AI手机、AI网关等端边侧场景中。
根据弗若斯特沙利文预测,2029年全球端侧AI市场规模将增至1.2万亿元,复合年增长率高达39.6%。联想AI PC渗透率已达到联想PC总出货量30%以上;智能会议设备Plaud年销量已破百万;Meta AI眼镜发布两天内全部售罄,2026年将破千万台。端侧AI越来越成为科技巨头的必争之地。
我国端侧AI的发展有着天然的优势,一方面顶层设计上高度重视,另一方面我们有着的巨大的端侧市场和应用场景。根据弗若斯特沙利文预测,中国端侧AI市场2029年将实现3077亿元,复合年增长率高达39.9%。
“十五五”规划建议、《人工智能+行动实施指导意见》等政策文件明确提出,要全面实施"人工智能+"行动,抢占人工智能产业应用制高点,全方位赋能千行百业。锚定2030年“十五五”收官节点,通过五年攻坚,实现智能终端普及率超90%、产业规模突破10万亿元的目标,为端侧AI规模化爆发注入强劲确定性动能。“量化指标”的政策指引,不仅让企业研发和市场推广有了明确方向,也推动端侧AI从“零散试点”走向“规模化落地”。
中国是全球最大的消费电子、家电和汽车生产国,为端侧AI芯片和解决方案提供了巨大的市场需求。国内已形成全球最完整的端侧AI产业链:上游有华为昇腾、地平线、瑞芯微、后摩智能等芯片厂商提供硬件支撑;中游有Deepseek,阿里,讯飞等企业提供算法模型;下游有荣耀、联想、小米等终端厂商负责产品落地,形成了难以复制的生态优势。
政策支持与市场需求形成共振,将推动国内端侧AI市场规模快速增长,推动大模型从云端走向手机、PC、汽车、机器人等亿万终端设备。
03. 大模型下沉,与端侧算力实现双向奔赴
云端大模型已经出现了“杀手级应用”:ChatGPT最新披露的周活跃用户已达8亿、豆包、Deepseek的月活也达到了1.72亿和1.45亿,而端侧大模型的Killer App目前还在路上。
这一差异的核心在于,一方面,在端侧功耗、成本受限的条件下,端侧算力芯片的性能决定了能跑的端侧模型的物理基础;另一方面,模型的量化、压缩能力迭代,决定了模型的软件上限。
云端CPU到GPU的霸权交替规律是否会延续到端侧?
让我们一起来看下两个底层逻辑:
1.AI主导计算在云端已经发生
如前所述,云端计算架构CPU:GPU已经从2019年的9:1变成了2025年的1:9,2020年大模型的出现显然加速了这一计算范式的革命。站在2025年的年末,我们看向未来,端侧的计算范式是否会延续云端以AI算力芯片为主导,CPU为辅助的新格局?
类似云端已经发生的,原来端侧传统的数据处理、检索、查询、推荐等都以AI计算的形式给用户带来更优的体验,那么用户将会用脚投票。如果把Deepseek模型装到PC或手机里,Deepseek直接访问电脑上重要的工作文件、手机相册视频、聊天记录等等(因为在本地没有隐私、延时问题),不仅能帮我们更高效的完成工作,聊天肯定也会更加深入有趣。
在云端,大模型已经彻底改变了游戏规则,不断加速的AI飞轮已经势不可挡,那端侧复制云端的故事就只是工程问题。
2.数据中心传输数据有物理上限,端侧AI不是一个选择题
马斯克在Joe Rogan Podcast上谈到,边缘节点处理本地推理并与服务器协作不是可选项,这是唯一在架构上可行的前进路径。
业界一般按照运营级4K流媒体每路约25–50Mbps带宽需求进行设计。按照较保守的25 Mbps/用户和2023年997 Tbps(即997,000,000Mbps)海底光缆总带宽来算,理论最大同时4K流用户约为39,880,000(约4000万)。这个用户量级远不能支撑目前的ChatGPT用户体量,更不要提类似微信这样的超级APP用户量级。所以完全由服务器端进行渲染和计算将需要不切实际的数据传输率,可能超出现有全球带宽容量,所以端侧AI的这部分感知和计算让互联网和云去处理是不现实的。
综上,云端CPU与GPU的霸权交替,本质是“效率与场景适配”对计算范式的筛选。而这两大底层逻辑,在端侧同样成立——AI化体验的用户诉求不可逆,数据传输的物理上限不可破。因此,端侧计算架构的变革并非偶然,而是技术演进与现实需求共同作用的必然结果。
端侧复制:模型与算力的共生进化
1.模型“瘦身”落地加速
MoE架构让大模型在保持性能的同时实现“瘦身”,为端侧部署扫清了架构障碍;蒸馏后的模型在保持较高性能的同时,大幅缩减模型尺寸和计算复杂度。华为CBQ量化算法将模型压缩至原体积1/7,性能保留99%,阿里逆向蒸馏技术使2B模型性能反超7B模型8.8%。模型压缩技术的突破降低算力门槛,使其能够部署在AIPC、AI手机、创新AI硬件等端侧场景中。
2.端侧算力需求激增
随着VLM等多模态大模型的广泛应用,要求同时处理视觉细节和文本逻辑,多模态数据的处理复杂度远超过纯文本数据,算力需求大幅攀升,比如Qwen3 VL 8B至少需要几十TOPS算力才能跑得动。另外,智能体(agent)的快速发展,需要反复调用多个模型,推理算力将会是指数级的增长。
3.端侧算力供给大幅跃迁
需求的增长刺激了算力供给,前大模型时代端侧芯片通常只有几TOPS的算力,AI PC出现后Intel和高通芯片有几十TOPS的算力。国产芯片里瑞芯微RK182X 作为独立NPU算力20TOPS;后摩智能M50算力可达到160TOPS。端侧NPU算力首次超过100TOPS,预计将继续向高算力、高带宽、低功耗方向演进。
04. 当前,端侧算力以“SOC+NPU协同发展”为主要格局
1.端侧SOC芯片:提供通用基础型解决方案
这类芯片以ARM CPU为核心,集成轻量级NPU,主打“性价比+通用性”。架构设计业界普遍采用“CPU+GPU+NPU+ISP”的混合集成架构,适配1-10亿参数的端侧小模型,主要应用在智能音箱、定制平板设备、智能门锁等端侧场景,这类设备对AI性能要求较低,注重成本控制。以瑞芯微RK3588为例,4个ARM A76大核,4个A55小核,6TOPS NPU,强大的CPU核和小算力的NPU组合。这是典型的前大模型时代的产品,以控制为主,附带少量AI能力处理以图像为主的泛安防等场景。全志H88K、钜芯JX100、恒烁HS610等SOC的AI能力相对瑞芯微会更小。类比云端的计算架构,当前端侧依然是CPU为主的计算范式,只是端侧是ARM替代X86。
2.端侧NPU:提供极致性能解决方案
虽然GPU成为了云端AI计算的核心,但其功耗劣势在端侧是明显的短板,因此端侧的AI计算NPU逐渐成为主流。
GPU的存在形态分为iGPU(集显)和dGPU(独显),NPU也分为iNPU(集成加速卡)和dNPU(独立加速卡)。如果追求更极致的AI性能表现,不但需要芯片算力,也需要足够的带宽,dNPU是最优的选择,不用和SOC里的CPU核、GPU核、ISP等单元争抢带宽。同时,dNPU有灵活搭配的优点,可以根据具体场景和不同性能的SOC组合使用。
目前市面上性能较强的NPU如华为Atlas 200I A2、算能BM1684X、瑞芯微RK182X、后摩智能M50等产品,可以适配30-1000亿参数的模型。
华为Atlas 200I A2:传统架构,最高20TOPS Int8算力,功耗25瓦,带宽最高51.2GB/s。可以部署在无人机和机器人等设备上,优势在于高集成度和完整的软硬件生态。
算能BM1684X:传统架构,单芯片32TOPS,功耗15-33瓦。以行业应用广度和成熟度见长,适合智慧安防、边缘计算服务器等需要处理大量视频流的场景,已在270+城市项目中落地。
瑞芯微RK1820/1828:3D堆叠封装,最高20TOPS Int8算力,功耗数据官方未披露。3D堆叠理论带宽能达到1TB/S,目前一些公众号实测数据给出百GB/s。协处理器定位,与主处理器(如RK3588)搭配,能以较低成本为现有设备快速增添大模型能力,但面对强AI场景算力或是瓶颈。
后摩智能M50:存算一体架构,单芯片算力160TOPS,功耗10W,带宽153GB/s。协处理器定位。得益于创新架构,算力优势显著,10W功耗可放入大部分消费电子产品内。特别适合PC、机器人、智能语音设备等对功耗敏感、要求数据本地化处理的大模型应用场景。
05. 未来,端侧算力将形成以dNPU为主的新范式
1.端侧ARM+NPU镜像云端X86+GPGPU将是大趋势
端侧计算未来发展也会像云端异构计算变迁一样,从CPU计算为主,逐渐向AI计算为主迁移,大模型的出现和迭代是云端计算架构变迁的底层动能,也将依然是端侧计算架构变革的核燃料。
端侧功耗的敏感性以及散热条件的限制,让X86+GPGPU无法照搬迁移。端侧的CPU,取决于看多长的时间维度,ARM或RISC-V将取代X86的位置;端侧的AI计算,dNPU(也有人称为GPNPU,即通用AI计算单元)将取代GPGPU的位置,嵌入各种复杂的AI计算。
CPU和NPU会根据场景需要配合前进,只是NPU会在重要性和价值量上逐渐接近云端GPGPU的比例。
2.端侧将形成低、中、高算力分层
低算力场景(<10TOPS):SOC集成iNPU是最优解决方案。在此场景下,用户对AI功能的需求集中在语音助手、简单图像识别等基础应用。SOC芯片的集成化设计可极大程度降低硬件成本,完美适配需求,如RK3588、全志V853、钜芯JX900,适配智能家电、入门级平板等。
中算力场景(10TOPS~50TOPS):为追求较好的AI性能表现需要充足的带宽,独立dNPU是最优方案。支持10亿~100亿参数量的模型。这类市场的用户可能需要在本地设备跑7B的语言模型或多模态模型。如瑞芯微RK1820、算能BM1684X等,适配各类边缘推理场景。
高算力场景(>50TOPS):追求AI性能的极致表现和未来迭代需求,dNPU方案是最优解。支持100亿~1000亿参数量的大模型,随着大模型的演进,算力需求无上限,供给侧瓶颈在于功耗限制。典型场景如高性能AI PC、陪伴机器人、高性能智能语音设备、边缘计算盒子等。目前国内只有后摩智能M50。
3.dNPU将成为端侧AI主导力量
传统的端侧芯片设计理念通常认为SOC越来越高的集成度是大趋势,这也符合端侧芯片大部分时间的发展实证经验。但当SOC内的某一部分计算单元重要到需要独立配备带宽和存储资源,集成在SOC内就未必是最优的选项。典型的案例是英伟达PC端的GPU显卡,作为独立的dGPU,二十多年来一直在SOC外单独存在。尽管英特尔和AMD都试图在SOC里集成iGPU,但是在高性能游戏显卡的竞争中,英伟达占到95%~98%的市场份额,占据绝对的垄断地位。AI芯片的重要性将远超游戏显卡,使用人群基数也远超游戏发烧友,同理可推,独立NPU将会是更主导的端侧形态。
独立NPU更像是端侧场景下的GPGPU,在和SOC协同中有如下优势:
——适配操作系统和硬件的多样化:dNPU可以像U盘一样即插即用,无论CPU是X86、ARM还是RISC-V,操作系统是Windows、Android还是Linux,都可以轻松适配,跨操作系统使用。这使得同一颗NPU可以跨手机、平板、PC等硬件平台使用。
——组合成本最优化:端侧的场景分散且需求各异,简化到CPU和NPU都有各种组合。独立NPU使SOC可以按需扩展算力,当产品需要升级以支持大模型等更复杂功能时,再通过增加dNPU来提供强力AI算力;反之,根据具体场景NPU也可以选择最合适的SOC配合,选取最适量的CPU核。例如RK3588+RK182X组合方案,较集成高算力NPU的OrinNX在成本上有明显优势。
——开发迭代灵活性:当某个端侧应用需要增加AI功能时,如果迁移到新的SOC上工作量巨大,但是不更换SOC,只是增加一颗dNPU则可以敏捷开发,主控芯片不变,快速升级AI功能。dNPU可根据算力需求单独升级,适配端侧AI模型3-6个月迭代周期,SOC的研发周期一般需长达18-24个月。
——性能极致化:几乎100%的高性能显卡都是dGPU,为了保证游戏玩家的体验要有独立的带宽保障。SOC中的iNPU需要和其他计算单元争抢带宽资源,性能无法做到极致。独立NPU是极致AI性能的唯一方案。
06. 端侧AI的场景革命,正在重构生活与工作的智能体验
桌上那个比iPod Shuffle还小的无屏设备,正静静感知、规划着你的生活,让你彻底告别手机碎片化信息的干扰,这是IO计划颠覆手机、电脑的第三设备;未来的手机可能只有一个屏幕和基础联网功能,不会再有操作系统和App,你想要的一切或者AI预测你想要的一切,都将通过AI生成,这是马斯克对未来端侧AI的预言。
端侧AI如今正沿着一条清晰的路径进化,从简单的连接功能逐步走向与环境、用户的深度融合
初级形态:联网节点,设备能联网,大部分设备算力不足1T,仅可通过手机简单控制。
二级形态:交互入口,全球首款智能音箱Echo,它能听懂“播放钢琴曲”,但无法理解你说的“我心情不好”。二级形态算力一般都在5Tops以内,重度依赖云端识别,用户的声纹数据需上传服务器,反馈速度极慢。
三级形态:推理节点,具备多模态感知、上下文记忆与单场景决策能力,从“听见”飞跃至“听懂、看懂并记住”。会议中正在走神的你突然被提问,智能会议设备捕捉到你慌乱的眼神,迅速结合前面讨论内容、分析当前投屏的PPT,本地数据库中的相关纪要,快速生成符合老板偏好的回答建议。在这一阶段,端侧AI算力达到百Tops,交互延迟可压至毫秒级,数据处理完全本地化,这种实时性与安全性让用户开始接纳并适应端侧AI融入他们的生活。
四级形态:自主智能体,端侧AI跃升为你的生活和工作助理,能跨设备、跨场景自主规划,并且能持续学习,不断自我迭代。当你说“请安排一下周末的Party”,无屏AI伴侣立刻查询你的聊天记录,确定参加的人数,宾客的口味,检查冰箱的食物,规划菜谱并通过手机下单。本级形态的端侧AI已实现互联互通,算力500T以上,从智能家居到办公设备,超80%的数据将在端侧处理。用户的语音、图像、日常生活习惯、个性化需求在本地设备间安全流转,智能体则根据用户的指令,随时调用个人数据。
终极形态:目前无法预估,未来端侧AI或许是人类文明的延续,是碳基生命与硅基生命的共生......
端侧AI已迈入第三级形态,对计算芯片的要求呈指数级攀升,且必须在算力、功耗与成本之间找到最佳平衡点。传统冯诺依曼架构,数据在存储与运算单元之间反复搬运,1w功耗限制下最多只能提供几Tops的算力。
因此,为了突破这一限制,多种新型计算架构相继涌现:
光子计算芯片利用光波传输信息,延迟可达皮秒级,功耗极低,但光源系统仍面临技术成熟度挑战;
量子计算芯片借助量子并行与叠加态,可同时处理海量运算,速度远超经典计算机,目前尚处于早期阶段,错误率极高;
可重构数据流用数据驱动计算过程,减少指令调度开销;
Chiplet技术通过异构集成,将不同工艺、功能的芯片模块封装在一起,实现高性能与低成本的兼顾;
存算一体技术通过融合计算与存储单元,将数据搬运路径缩至最短,大幅提升计算效率,是新型计算架构中更适合端侧AI、且能商业量产的方案之一。
目前,国内外众多芯片厂商都在积极布局存算一体技术,美国人工智能芯片初创公司D-Matrix第一款芯片Corsair已成功量产,主要用于聊天机器人等云端推理场景,公司估值已达到20亿美元;核心技术源于DARPA(美国国防高级研究计划局)资助的研究项目Encharge AI则面向端侧AI场景,芯片算力高达200T,今年年底将送测客户。
国内知存科技、后摩智能等初创公司,也已推出多款基于存算一体架构的AI芯片,知存科技深耕小算力场景,其产品已广泛应用于可穿戴设备,AIoT等;而后摩智能则主攻大算力端侧AI场景,已成功将大模型能力导入联想AI PC、讯飞智能语音设备、陪伴机器人等场景。
Sam Altman曾明确指出,当前AI发展的核心瓶颈已从算法转向算力、存储与能源构成的“三位一体”基础设施挑战。未来,无论是云端还是端侧AI,以存算一体为代表的新的技术架构将会逐步走向舞台中央,成为驱动AI全场景算力升级的核心引擎。
结语:端侧AI,定义智能时代的终极形态
端侧AI的崛起是技术发展的必然——从通用计算到AI计算,从云端到终端,从集成NPU到独立NPU,每一步都遵循“效率优化+场景适配”的逻辑。
未来五年,所有终端都将经历一场深刻的大模型洗礼与蜕变,端侧AI将从高端走向普及,从单点功能走向全场景智能,真正开启“人人可用、万物智能”的时代。
一个由端侧AI定义的、更高效、更普惠、更具想象力的智能终局,正在加速到来。

