2026年3月20日,华为云在中小企业AI解决方案发布会上推出柔性智算操作系统FlexNPU。该系统通过PD动态混部、在离线混部等技术,提升推理池算力利用率,以相同硬件投入提供更大Token吞吐。FlexNPU具备极致共享、弹性和高可用性,解决大模型推理闲置、小模型独占算力浪费及故障重算成本高问题,实现AI算力分配从“资源模式”到“效率模式”的转变。
简体中文 English