C114讯 1月22日消息(九九)新年伊始,CIOE中国光博会联合C114举办的“2026中国光通信高质量发展论坛”如期开启。第一期聚焦“AI超节点互连架构演进”,深入探讨光互连在高性能AI集群中的可行性与落地路径,推动“以网强算、以光赋智”理念在算力基础设施中的实践落地。

阿里云资深网络架构师席永青在22日举行的首场论坛上表示,单靠增加GPU数量并不能线性提升训练效率,在超大规模集群中,真正决定集群性能上限的往往不是计算单元,而是连接这些单元的网络,“高性能网络系统定义集群化算力”。
那么,如何让网络性能从“尽力而为”(Best-effort)变成“可预期”(Predictable),成为AI Infra竞争的新高地。
席永青介绍,过去几年,阿里云围绕高性能、高可靠、高性价比三大核心诉求,开展全栈式网络架构创新。未来将通过HPN+UPN双轨并进,构建起支撑训推一体、万卡协同的下一代AI基础设施。
HPN:万卡集群的“智能高速公路”
席永青进一步介绍,HPN(High-Performance Network)是阿里云面向大规模分布式训练与推理打造的高速网络。其核心目标是在复杂混合负载下,依然提供微秒级低时延、近100%带宽利用率和跨地域一致体验。
这并非易事。早期AI训练流量规整、可预测,但随着RLHF(人类反馈强化学习)、MoE(混合专家模型)、在线推理等新范式兴起,网络流量变得高度动态、突发性强、时延和吞吐都很敏感。
为此,阿里云采取端网融合的新型数据中心网络架构HPN:硬件层,自研400G/800G智能网卡与51.2T/102T超大容量交换机,并率先引入硅光技术降低成本;协议层,迭代自研RDMA协议,支持多路径传输与精细化流控;软件层,推出高性能通信库ACCL,在兼容主流框架的同时,针对专家并行(EP)、PD分离等场景深度优化。
阿里云智算网络架构HPN7.0已在实践中验证成效;新一代训推一体智算网络架构HPN 8.0,采用多平面CLOS架构+IPv6 Native设计,不仅支持单可用区数十万卡规模,还能实现跨地域RDMA互联与端到端QoS保障,真正打通训推一体的“最后一公里”。
UPN:用“光”破解Scale-up困局
如果说HPN解决的是Scale-out问题,那么UPN(Ultra-Performance Network)则直面未来Scale-up的终极挑战。
行业普遍预测,未来的AI机柜将集成512甚至1024颗xPU。如此高密度算力若仍依赖传统电互联将面临三大困境:物理限制,电信号衰减严重,难以支撑长距离高速传输;可靠性风险,高密度布线导致故障率飙升,生产良率难爬坡。
“阿里云的答案是:把光放进机柜里。”席永青说。UPN采用LPO/NPO全光互联技术,在单机柜内部构建光速通信网络。其设计哲学是“解耦”:解耦硬件,回归标准设备形态,避免定制化“小型机”陷阱;LPO/NPO可靠性提升,成本降低,光链路路径更简单、被动器件更多,系统可用性提升3倍以上;解耦性能,基于单层以太网拓扑,可协议简化,引入在网计算。一套“组合拳”使得性能提升的同时,成本反降30%。
席永青强调,UPN不仅是一次技术跃迁,更是一种新范式的开启——它让高密度算力单元既拥有小型机的性能,又具备分布式标准系统的灵活性与经济性。
阿里云将基于HPN+UPN的协同设计,构建一个超大规模、低时延、高可靠、低成本、可扩展的智算底座。

