ESUN联盟启示:中国AI产业需加快共建开放生态
来源:C114 8 小时前

C114讯 10月17日消息(水易)“天下苦英伟达久矣”!这样的呼声随着AI的飞速发展愈发高涨,特别是在扩大AI算力集群规模时,InfiniBand、NVLink虽然性能卓越,但封闭的生态、高昂的成本以及供应商锁定带来的断供风险,促使行业巨头寻求更开放、灵活且具成本效益的替代方案。

近年来,相继涌现的超以太网联盟(Ultra Ethernet Consortium, UEC)、全调度以太网技术GSE(Global Scheduling Ethernet)等,都致力于通过开放、标准,拥有成熟软硬件生态的以太网方案,助力AI基础设施建设。

不止于此,2025年OCP全球峰会期间,ESUN(Ethernet for Scale-Up Networking)联盟亮相,从命名就能看出,这是面向AI智算中心Scale-Up场景的协议规范,目标挑战AI集群内部被专有协议垄断的高速互联市场。

值得关注的是,在ESUN联盟成员中,有专有协议的受益者英伟达,也有互为竞争对手的博通和思科、AMD和英伟达,还有互为客户关系的互联网厂商和设备商。这样的组合不仅耐人寻味,同时没有一家中国厂商参与,也让我们感受到中美AI生态存在分裂的可能性,为此中国的AI产业链也应该加快协作,共建开放生态,推动人工智能持续发展。

ESUN目标Scale-Up以太化

AIGC的爆炸式增长和快速演进带来了复杂的训练和推理工作负载,不断推高计算节点之间的通信量,任何网络延迟或带宽瓶颈都会导致昂贵的GPU空闲等待,大幅降低整体计算效率。

研究数据显示,在智算中心整体投资中,网络仅占10%,但网络性能波动可导致训练效率下降30%,训练时长增加25%。基于Scale-Up的超节点技术可以实现单机柜更高密度GPU的直接互联通信,将充分提升算力卡的计算效能,减少GPU闲置,显著提升训推效率。

从大型AI算力基础设施建设的技术方向看,超节点已经成为主导性产品形态,并正在成为AI基础设施建设的新常态。超节点事实上就是一台能学习、思考、推理的计算机,物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。

当然,这就对Scale-Up网络提出极为严苛的要求,超大带宽、极低时延、超高可靠等都是基本条件,也在一定程度上解释了为什么市面上的超级点的方案几乎都是专有协议。但问题也随之而来,深度绑定带来成本居高不下,生态碎片化形成一座座算力孤岛,制约了AI产业的持续创新发展。

面对这一局面,整个AI产业链一直在讨论基于拥有成熟软硬件生态的以太网方案来进行智算网络创新,统一智算联接标准。只不过,以太网在无损传输、错误处理等核心指标上存在一定短板。如今,ESUN联盟的成立,汇聚产业链龙头协同推进,使得这件事情有了确定性的未来。

从OCP官网的介绍来看,ESUN本质是OCP框架下的开放式技术协作平台,致力于将以太网技术适配并升级至AI Scale-Up场景。简言之,ESUN的目标是基于以太网方案,为数量巨大的AI芯片互联提供统一的“语言”,为高密度AI计算集群打造高性能、可互通的连接基石,并向所有人开放。

开放开源AI全产业链受益

开放一直是“开放计算项目(OCP)”的初衷,ESUN作为一个开放论坛,运营商、设备和组件制造商可以在此共同推进针对Scale-Up网络优化的以太网解决方案,强调XPU网络接口和以太网交换机芯片的开发和互操作性。

ESUN最初的工作重点将放在L2/L3以太网帧结构和交换机制,实现鲁棒、无损和抗错误的单跳和多跳拓扑。同时,ESUN将积极与UEC(超以太网联盟)和IEEE 802.3工作组接洽,以与开放标准对齐,吸纳最佳实践,并加速创新。此外,利用以太网成熟的硬件和软件生态系统,推动其在行业内的快速采用。

值得一提的是,ESUN仅聚焦于开放基于标准的以太网交换和帧格式,并明确排除了主机侧协议栈、非以太网协议、应用层解决方案及专有技术方案。

AI产业链积极拥抱开放开源有其底层逻辑。对于互联网厂商,基于以太网无与伦比的成熟度,通过开放设计能打破厂商锁定,降低成本的同时,实现灵活扩展。对于解决方案供应商而言,开放标准降低创新门槛,加速产品上市,也能丰富供应链。

英伟达虽然受益于封闭生态,但面对整个AI产业的开放开源大潮必须跟进,也要在表面上消除“垄断”的标签。与此同时,英伟达在以太网领域的实力同样强劲,IDC最新报告显示,2025年Q2英伟达以太网交换机业务收入同比暴增647%,达到23亿美元,在数据中心细分市场中以25.9%的份额跃居第一,超越传统巨头思科与Arista。

在OCP期间的发言中,AMD执行副总裁兼首席技术官Mark Papermaster明确表示开放生态的重要性,“协作”不只是成功要素,更是根本条件,历史证明最终总是开放生态胜出。事实上,回顾信息通信行业的高速发展,很大程度上得益于整个互联技术向以太化统一,这也是标准统一带来的魅力。

协同共进:开放AI产业生态

如前文所述,ESUN联盟汇聚的十二家企业包括AMD、Arista、ARM、博通、思科、HPE、Marvell、Meta、微软、英伟达、OpenAI、甲骨文,清一色的美国企业,没有一家中国企业参与其中,这几乎是当前中美科技博弈持续升温背景下的常态。

与此同时,美国对高端GPU的出口管制,中国AI产业链和生态的割裂将会进一步加剧。为了在这一轮的AI竞赛中不掉队,我们也需要探索出适合中国发展的技术方案,并加速开放开源,灵衢UnifiedBus已经给出答案。

早在2024年华为全联接大会上,华为副董事长、轮值董事长徐直军提到“开创计算架构,打造‘超节点+集群’算力解决方案持续满足算力需求”。今年的全联接大会上,华为正式发布灵衢UnifiedBus,一个面向超节点的互联协议。

据了解,基于灵衢 1.0 的Atlas 900超节点自2025年3月开始交付,至今已商用部署300多套,灵衢1.0技术得到充分验证。在灵衢1.0的基础上,华为继续丰富功能,优化性能,提升规模,进一步完善了协议,形成了灵衢2.0,并规划了Atlas 950 SuperPoD和Atlas 960 SuperPoD的超节点产品。

徐直军还宣布,华为全面开放灵衢2.0技术规范。华为坚持硬件开放、软件开源,支持伙伴打造面向行业的超节点场景化解决方案,加速开发者高效自主创新,推动超节点技术普惠与协同创新,共建繁荣生态。

当然,AI产业生态的发展除了某个厂商的贡献外,更需要华为、阿里云、字节、腾讯云、运营商等产业链头部企业的协作,形成合力。同时也离不开生态社区的指引,例如近年来中国移动主导的GSE、中国信通院主导的ODCC等社区,都在为产业生态建设提供有力支撑。

简体中文 English