重塑AI算力底座——思科与阿里巴巴联手定义下一代智能网络
来源:微信公众号 2 天前

在 AI 大模型训练与推理需求呈指数级爆发的今天,网络性能已成为决定算力效率的关键瓶颈。近日,思科(Cisco)与阿里巴巴联合举办的“SRv6 技术峰会”在业界引发高度关注。双方不仅展示了在 SRv6 领域的深厚积淀,更共同描绘了从芯片到软件的“全栈 AI 就绪”网络蓝图。

在峰会开幕致辞中,思科大中华区资深副总裁兼首席技术官侯胜利与阿里云智能集团研发副总裁,基础设施网络研发负责人蔡德忠共同指出,随着 AI 算力规模的指数级扩张,网络性能已成为制约算力释放的决定性因素。面对 AI 后端网络在吞吐量、低延迟与确定性调度方面的严苛挑战,两位领导高屋建瓴地强调,SRv6 不仅是一项技术的迭代,更是网络架构从“被动连接”向“主动感知”的历史性跨越,是破解 AI 时代算力瓶颈的关键钥匙。


以下是本次峰会探讨的核心技术与愿景:

1

SRv6:从协议演进到行业领导力

SRv6 的崛起并非偶然,而是网络技术在 AI 时代进化的必然选择。从早期的 MPLS 到如今成为行业标准的 SRv6,网络技术完成了从“复杂协议堆栈”到“极简原生 IPv6”的蜕变。作为 SRv6 技术的发明者,思科院士 Clarence Filsfils 在峰会上深刻阐述了 SRv6 在 AI/ML 领域的最新演进趋势。他指出,SRv6 正在从单纯的流量路径控制,向“AI 感知网络”进化。通过 SRv6,网络能够实时理解 AI 训练任务的流量特征,实现微秒级的确定性调度和网络收敛,从而在多租户 AI 云环境中确保 GPU 集群的高效协同。Clarence 预见,未来网络将向“计算与网络深度融合”的自主架构发展,SRv6 将成为连接算力孤岛、构建全球 AI 算力网络的神经系统。思科与阿里巴巴,微软以及头部运营商在这一领域的先行探索,不仅推动了协议的标准化,更通过持续的创新实践,定义了下一代智能网络的新范式。

2

阿里云 eCore:网络架构的“智”变

阿里云 eCore 架构团队负责人蒋治春在峰会上详细展示了其 eCore 广域网络架构的颠覆性成果。面对传统 AGN 架构在协议复杂性、故障域大、CAPEX/OPEX 高企以及流量调度僵化等方面的痛点,eCore 通过 SRv6 技术实现了质的飞跃:

◎ 架构极简与高效:采用“Pizza Box” 路由器多域多平面设计理念,通过单芯片与单栈(SRv6)架构,将 ISIS 域规模缩小至原来的 1/100,实现了 10 倍的收敛速度提升。

◎ 显著的成本与运维优势:eCore 不仅实现了 50% 的 CAPEX(资本支出)大幅削减,更通过全自动化运维实现了卓越的运营效率。

◎ 极速业务响应:得益于 SRv6 的灵活性,面向业务定制的功能交付速度提升了 10 倍,能够在数周内完成新业务功能的部署。

◎ 精细化流量工程:实现了基于前缀(per-prefix)的细粒度流量工程(TE),彻底告别了传统网络的僵化调度,为 AI 时代的复杂业务提供了极致的确定性保障。

3

AI数据中心:支持下一代大规模

人工智能后端网络的关键技术

峰会期间,微软高级研究员牛治雄发表题为《支持下一代大规模人工智能后端网络的关键技术》的主题演讲,聚焦大规模 AI 训练场景下后端网络面临的新挑战,以及 SRv6 等关键技术如何帮助提升 AI backend 网络的性能与可控性。演讲结合相关实践,介绍下一代 AI 后端网络中的若干关键设计思路。

◎ AI backend 网络面临新的流量挑战: 与传统数据中心业务不同,AI 训练后端网络通常呈现出大象流占主导、流量突发性强、熵低、对尾时延敏感等特征。传统基于 ECMP 的负载均衡机制在这类场景下容易出现路径碰撞,进而影响链路利用率与训练通信效率。

◎ SRv6 为 AI backend 提供更细粒度的路径控制能力: 演讲重点介绍 SRv6,特别是 uSID 机制,如何通过源路由将路径信息编码进报文头部,使源端能够对数据包在多平面 AI 网络中的转发路径进行更精细的控制。相比传统 ECMP,这种方式有助于减少路径选择中的不确定性。

◎ SRv6 支持在拥塞或故障场景下更快调整路径: 在大规模 AI 训练中,链路拥塞和网络故障会直接影响作业运行。演讲将介绍在检测到拥塞或故障后,源端 NIC 可以通过调整包头中的 uSID 来切换路径,从而提升网络恢复和流量调整的灵活性。

◎ SRv6 也为 AI backend 的端到端协同提供了支持: 在 AI 后端网络中,SRv6 不仅涉及交换机侧的转发能力,也与 NIC/DPU 等端侧能力相结合,为多平面网络中的路径控制与流量管理提供支持。

4

SRv6 社区建设与未来展望

阿里云网络软件系统总监阮弋星在峰会上强调,SRv6 技术的蓬勃发展离不开开放生态的滋养,特别是 SONiC(Software for Open Networking in the Cloud)路由工作组 的持续建设。会上,他详细介绍了由阿里云、思科及 SONiC 社区伙伴共同主导的"Phoenix Wing"计划。该计划旨在推动 SRv6 特性在 SONiC 上的研发与部署,并借此契机持续优化 SONiC 软件架构,以更好地适配路由场景。目前,该计划进展顺利。来自 6 个不同组织的软件工程师在 9 个技术领域通力合作,完成了 53 个代码合入请求,并成功合并至 SONiC 代码主分支。这些改进显著优化了 BGP 加载耗时、路由收敛时间、SRv6 VPN、SRv6 Policy 以及 BFD 硬件卸载等多个关键方向。此外,他还特别提到思科向社区贡献了轻量级的路由器仿真器,该工具能够真实模拟基于 Silicon One 芯片的路由器和交换机。配合社区开源软件或思科 IOS XR 操作系统,开发者可轻松部署并模拟超大规模网络平台。阿里巴巴在 ALiNOS 网络操作系统的开发过程中,便充分利用了这一仿真能力,实现了全网架构与设备的 1:1 业务仿真,为软件功能的快速迭代与质量保障提供了极大的便利。最后,他呼吁广大行业同行积极参与 SONiC 路由工作组的建设,共同加速开源网络技术的标准化与成熟化。

阿里云高级软件工程师林松楠登台参加了分享

5

思科全栈创新:从芯片到光网络的

“提速降费”

思科大规模基础设施事业部的产品管理副总裁 Mauricio Cruz Covarrubias 向来宾展示了思科支撑超大规模 AI DC 与 DCI 业务的“全栈硬核”科技组合,通过从芯片到系统,再到 IP+光传输架构的深度集成,实现了性能跃升与成本优化:

◎ 芯片与系统底座:最新的 Silicon One G300 102.4T AI 交换芯片 P200 大缓存的 51.2T 路由器芯片不仅能驱动吉瓦级(Gigawatt-scale)AI 集群,更通过“智能集合通讯网络(Intelligent Collective Networking)”技术,实现了 33% 的网络利用率提升,并将AI任务完成时间缩短了 28%。配合 G300/P200 驱动的 Nexus 9000 与 Cisco 8000 交换机和路由器以及 Cisco Crosswork 智能管控平台,思科助力客户实现了从本地到云端数据中心一键部署和极简运维。

◎ 路由光网络(RON):通过将 400G/800G ZR+相干光模块直接集成至路由器,思科彻底打破了 IP 层与光层的壁垒,大幅减少了中间设备,降低了机房空间与能耗,帮助客户降低 45% 的总体拥有成本,真正践行了“提速降费”的行业使命。

◎ AgenticOps 与智能运维:思科推出的Agentic AI Ops 创新,整合了跨网络、安全及Splunk 等全域遥测数据,大幅简化了 AI 时代的 IT 运维,帮助企业实现自动化、规模化的高效运营。

◎ 全方位安全保障:结合业界领先的 AI Defense 解决方案与 SASE 安全架构,思科为 AI 业务提供了从供应链治理到运行时保护的端到端安全保障,确保 AI 交互的完整性与可控性。

高端圆桌会议

本场高端圆桌论坛由思科首席架构师蒋星主持,受邀嘉宾包括:阿里云广域网架构与研发负责人苏远超、微软高级研究员牛治雄、思科院士 Clarence Filsfils,以及思科产品管理副总裁 Mauricio Cruz Covarrubias。本次专题讨论会深入探讨了 SRv6 与全栈创新如何构建下一代智能、高性能网络,以有效应对现代 AI 工作负载所带来的扩展性挑战。

思科大中华区副总裁兼思科中国东区及跨国企业业务总经理房晓曦发表了精彩的总结致辞。她精辟地梳理了全天的核心洞察,并进一步重申了双方合作的战略愿景,为本次峰会画上了圆满的句号。

结语

思科与阿里巴巴的合作,不仅是技术的强强联合,更是对未来数字基础设施的一次深刻重构。通过与微软在 AI 后端网络技术上的前瞻性探索,以及与全球头部运营商在 SRv6 商用部署上的深度实践,思科正构建一个开放、可控、高性能的 AI 网络生态。未来,我们将继续携手各方,通过 SRv6 与全栈硬件创新,为全球 AI 产业提供更稳、更快、更智能的网络底座。

简体中文 English