日前,在亚利桑那举办的“Tech Tour”活动上,英特尔公布了其基于18A先进制程工艺打造的“双响炮”——代号为Panther Lake的PC处理器以及代号为Clearwater Forest的服务器芯片。
Panther Lake最终的芯片命名还有待公布,将于今年Q4问世,Clearwater Forest则被命名为“至强6+”,将在明年推向市场。
凭借Ribbon FET和PowerVia背部供电在制程工艺上的重要革新,作为18A打造的首款面向数据中心市场的服务器芯片,Clearwater Forest带来出色的性能和能效表现。
能效E核大焕新 IPC性能暴涨17%
随着制程等向更先进节点演进,芯片设计厂商越来越受到不同维度的制约。比如动态功耗、静态功耗以及如何合理地将芯片资源分配在不同的功能模块上。本质而言,是先进制程工艺下,制程的红利越来越少,现代芯片设计不再局限于“堆晶体管数量”,而是要在“性能、功耗、资源利用率”之间找到最优解。
随着服务器行业的演进和发展,以及云技术、AI、5G/6G等新兴技术的普及,在使用场景和工作负载方面的重大变化,使得单一内核架构的处理器很难同时在性能和能耗上得到最优的优化。同时,芯片的产品部署环境随场景不同,也呈现需求的分野,一些客户需要极致的性能,而另一些客户更在意高能效比,这使得芯片设计厂商很难通过同样架构满足不同客户的需求。
因此,英特尔自至强6处理器系列起,在性能P核的基础上,首次引入新的能效E核。其中,P核处理器(代号Granite Rapids)在较好能效基础上着力提升每核性能,更加适用于计算密集型工作负载。E核处理器(代号为Sierra Forest,去年6月份发布)则在满足一定的性能要求前提下,最大化优化每核/每瓦的性能指标,从而更适用于高核心密度以及需要快速进行横向工作负载扩展以及吞吐量扩展的场景。
E核处理器在提升能效方面的表现非常显著,根据英特尔的数据以及合作伙伴的反馈,至强6能效E核处理器可以大幅度提高每瓦性能,达到之前的3.8倍,同时可以在单台服务器上增加5倍的吞吐量。
而在此次Clearwater Forest架构中,全新的Darkmont能效核心在架构上进行了多项关键升级,实现了三方面的优化和提升,使得低功耗的能效核心也能高效并行处理指令,兼顾节能与性能。
首先是前端,负责指令的预处理工作,包括指令预取、跳转预测和译码等环节。在Darkmont的前端部分,配置了大容量64K指令缓存,具备更精准的分支预测能力,提升了超过50%的指令带宽(3*32bit),采用3*3乱序解码器,进一步优化了前端指令处理流程,使其更高效。
其次,Darkmont能效核心采用了乱序执行引擎,负责指令的调度和并行执行。通过“8宽分配+16宽提交”,让多指令并行处理,减少等待时间,416项乱序执行窗口使其能够更容易找到可并行的指令。
第三,执行端口,负责指令的最终执行。Darkmont的26个执行端口能够支持算数运算、内存读写、浮点计算等多样计算类型。
在与上一代Sierra Forest的能效核Crestmont的比较中可以看到,在指令解码、分配、微操作队列、缓存窗口以及指令派发等方面,Clearwater Forest的能效核Darkmont都带来了30%-50%不等的提升。在算力单元,包括标量算术逻辑单元、向量算术逻辑单元、地址生成单元、二级缓存带宽上都实现了翻倍的提升,从4个算术单元提升到8个,从2×128bit的向量计算,提升到4×128bit向量计算等。
因此,整个Darkmont在相同功耗情况下,可以带来IPC17%的性能提升。整体上,相比Crestmont,至强6+处理器可以带来1.9倍以上的性能提升,同时在整体负载范围之内带来高达23%的能效提升,计算能效提升8倍。
288核数量翻倍 跨代升级
凭借18A先进制程工艺、先进封装以及创新的微架构,可以看出,英特尔的目标是在Clearwater Forest上,利用最好的设计和架构能力给客户带来最大的性能提升。
除了IPC提升17%外,在内核密度上,基于全新的288个Darkmont能效E核,实现了核心数量的翻倍以及全链路性能和能效比的突破,这在服务器芯片的迭代中非常罕见。为了匹配核心数的增加,在增加通道数的同时也对内存速度做了20%的提升,同时支持多达12条8000MT/s DDR5。这是目前已知最高的服务器产品核心数量以及内存速度。
在末级缓存上,Clearwater Forest也进行了大幅提升,支持最高576MB的末级缓存(同上一代相比提升5倍)以及96条PCIe Gen 5的I/O通道,其中有64条支持最新的CXL技术。双插槽可以将一到两个Clearwater Forest放在同一个主板上,从而支持单路和双路的系统。Clearwater Forest还支持多达6个UPI的互联,可以极大提高双路CPU之间的带宽通信。
同时,Clearwater Forest引入了英特尔最新的应用能耗监测功能以及内置了完备的安全防护功能,即TDX和SGX,并支持更全面的机密计算产品组合,包括支持安全哈希算法,并首次实现对于SM3、SM4等国密算法的支持等。
在能效方面,利用强劲的内核密度和内存带宽,Clearwater Forest构建起业界领先的机架密度, 当性能能耗增加之后,英特尔引入新的应用能耗监测系统(Intel AET),可以实现更精细的能耗监测和控制。
同第二代的至强处理器相比,使用20台机架180台Clearwater Forest服务器可以替代70个机架1400台第二代英特尔至强服务器,实现相同的算力,达到8:1的服务器整合比例。由于服务器和机架功率降低,可以降低整机功耗750KW,降低71%的数据中心占用空间,同时提升3.5倍的性能/功耗比,每台机架上也可以增加2.3倍的虚拟机部署数量。
在可信和安全方面,Clearwater Forest除了支持至强6系列的主流可信计算技术之外,特别进入了针对加密算法的新的加速指令,包括SHA-512、SM3和SM4的加速。
从如上几方面而言,将Clearwater Forest视为一款横空出世的跨时代产品并不为过。无论是制程工艺、封装技术、微架构创新,还是核心数量、IPC性能等,在每一个技术层级都实现了跨越式的提升,最终带来性能和能效表现的跃迁,为英特尔未来服务器产品系列树立起新的标杆。
Intel 18A:再次引领先进制造创新
Clearwater Forest的计算核心构建在最新的Intel 18A技术上,充分利用了Intel 18A的两项关键技术——环绕栅极(GAA)和背部供电技术(PowerVia),可以达到降低栅极电容,提高核心逻辑密度以及能效的效果,产生超过90%的电池利用率。同时,Intel 18A通过PowerVia和背面金属层能够优化和增强信号布线,并优化电力传输,从而降低4%-5%的功率损耗。
全环绕栅极技术(RibbonFET)通过先进的工艺将沟道以三维堆叠方式排布,可实现芯片进一步微型化,从而对高密度处理器的设计带来极大帮助。此外,因为栅极是通过全方位360环绕整个沟道,可以带来更低的功率损耗,同时可以通过调整纳米管的宽度来实现对管道内电流的精确控制。结合多阈值电压模块的设计,可以在不同尺度、不同设计上选择最优的纳米宽度和电压阈值来实现动态功耗以及静态功耗的平衡。
背部供电技术(PowerVia)与传统仅在晶体管正面布设金属层,同时承担信号传输和供电不同,PowerVia在晶体管背面增加了专用于电源互联的金属层。通过将电源互联和信号互联错开,可以有效解决信号和电源之间相互抢占金属层资源的矛盾,降低了布线拥塞,带来性能提升,同时可以更好的优化信号连接层的布局布线,从而达到更高的单元利用率的目的。通过将凸点移到芯片背面采用纳米级的TSV(尺寸为通常TSV的十分之一),可以直接通过更短的路径将电源从封装传递到晶体管内部,从而实现更高的电源布线效率。
得益于RibbonFET全环绕栅极晶体管和PowerVia背面供电技术,Intel 18A相较Intel 3实现了在相同功耗下每瓦性能提升15%,在相同面积下芯片密度提升30%。其中,PowerVia背面供电技术充分利用硅片的两面,在正面传输数据信号,在背面为晶体管供电,从而在缩小晶体管尺寸的同时,也降低了功耗。
先进制程工艺的演进,每一点进步都充满挑战。15年前,FinFET出现将2D平面型的晶体管变为3D结构,英特尔率先量产,延续摩尔定律演进,重塑了半导体制造业的技术路径。15年后,英特尔再次引领晶圆制造工艺的革新。目前,英特尔18A已达到量产良率,并已在亚利桑那州的Fab52工厂进入量产爬坡阶段,预计将于2026年上半年推出。
先进工艺“三代同堂” 先进封装显威力
在近年来的芯片架构设计中,英特尔一直在延续分拆芯片(die disaggregation)设计或是异质芯片整合的模块化设计思路,从而实现不同制程节点的芯片块封装。
在至强6P核Granite Rapids的架构中,包括3个计算/内存模块(intel 3工艺),2个I/O模块(intel 7工艺)和12个EMIB模块(EMIB 2.5D封装工艺)。
而在Clearwater Forest中,采用了12个计算模块(intel 18A工艺)、3个有源硅基板模块(base tile,Intel 3工艺),2个I/O模块(Intel 7工艺)和12个EMIB模块(EMIB 2.5d封装工艺)。
除了Intel 18A首次在服务器芯片Clearwater Forest上引入外,Clearwater Forest在SoC设计中充分利用了先进封装技术,即英特尔的全3D集成(Foveros Direct 3D)技术。
Foveros Direct 3D可以支持9微米量级的凸点间距,进行铜对铜的键合。相较于Foveros-s(2.5D封装)凸点间距25微米极大缩短。
Foveros Direct 3D互联的中间部分是有源硅基板,除了能够完成die和die之间的互联之外,还可以引入部分先进的逻辑和存储单元,从而实现更高的跨die间的互联以及更大的三级缓存。同时,可以实现高密度、低电阻的晶片间互联,达到0.05pJ/bit非常优秀的功耗/比特性能,0.05pJ约为2.5D技术所能达到的功耗的1/10。因此利用Intel 18A和Foveros Direct 3D技术,可以将Clearwater Forest的能效比达到前所未有的新高度。
Clearwater Forest的12个计算模块对应12个CPU芯粒(Intel 18A工艺),通过3D混合键合铜互联技术,同下面的三个独立的有源硅基板(Intel 3工艺)相连。有源硅基板并非传统工艺,而是采用了Intel 3工艺来支持更高的互联以及三级缓存。三个有源硅基板和分布在左右的两个I/O单元(Intel 7工艺,具备高速I/O、互连结构和加速器),通过EMIB2.5D先进封装技术实现互联。
所以,整个Clearwater Forest某种意义上是一种3.5D的互联方式。而在Clearwater Forest中,也首次实现了英特尔三代先进制程工艺的集合。
综上,通过Intel 18A先进技术,可以实现更高的算力密度,同时在Clearwater Forest采用了3D堆叠的封装技术,实现了三级缓存和CPU计算模块解耦(Clearwater Forest相比于上一代增加了5倍末端缓存,其中有相当一部分的增加来自3D堆叠技术,即在有源硅基板上布置三级缓存)。
传统的计算die,核密度受到其他模块的空间限制,Fabric、Cache都会占据较大空间。而如果将这两部分进行3D堆叠,就会让计算die更加纯粹(主要CPU核+部分L1、L2缓存),这样就有更大的空间塞入更多核心。因此,结合Intel 18A的算力密度,以及3D堆叠先进封装,是Clearwater Forest中实现核心数翻倍的重要原因。
英特尔技术专家表示,Foveros技术从本身概念上并不复杂,但在制造和测试中最大的难点在于,因为堆叠的每个Tile和Chiplet都已完成了功耗等测试,已经是性能完好的产品,在此基础上,再进行die间的堆叠时,产生的任何损耗,对整个芯片而言都是非常大的损失。因此非常考验连接的精密度和完整度、信号稳定性等,从而保证最终在全面封装之后的良率。
为何不叫“至强7”?全面兼容至强6
由于采用划时代的18A制造工艺,在Clearwater Forest发布之前,不少行业分析中预计新一代的至强系列将会命名“至强7”。
对于新一代至强为什么叫“至强6+”不叫“至强7”,英特尔方面解释称,主要原因是Clearwater Forest可以全面兼容目前客户为至强6所开发的服务器系统当中。比如在Clearwater Forest上使用的I/O单元和至强6的性能核处理器一致,Clearwater Forest处理器与上代至强6能效核处理器Sierra Forest的插槽兼容,最多支持12通道的DDR5 RDIMM内存等,因此从服务器系统侧的视角,二者隶属同一个产品家族,也比较方便外界理解。
需要强调的是,目前的Clearwater Forest平台基于Birch Stream AP。Birch Stream有SP和AP两种不同的平台和机箱设计。目前,288核的Clearwater Forest基于Birch Stream AP平台。这意味着,如果客户当前使用Granite Rapids AP服务器系统,即可将Granite Rapids CPU平滑替换为Clearwater Forest CPU,无需任何硬件改动,仅需软件更新即可直接使用,实现直接升级。
Clearwater Forest 6E系列,主要基于Birch Stream SP平台。因此,如果客户当前使用的是支持Sierra Forest能效核的Birch Stream SP系统,由于平台差异,无法直接安装Clearwater Forest AP CPU,这存在兼容性区别。只有使用Birch Stream AP服务器和系统,才能无缝升级到Clearwater Forest。
因此,虽然制程和技术实现大幅跨越,但考虑到平台的平滑升级以及兼容性,至强6+和至强6相当于在同一个Birch Stream平台上的三款不同产品,英特尔希望可以给客户带来更差异化的体验,所以没有把其重新命名成“至强7”。
另外一个可能的因素是,由于18A工艺的首次使用,通过这样的平台复用,英特尔可快速验证18A工艺的成熟度,降低客户对新技术的接受门槛。
规模化拓展适应吞吐型应用
由于采用不同内核架构,至强6+和至强6针对的场景有所不同。绝对性能上看,至强6更加适合一些对算力要求比较高的一些应用,更高的频率。而至强6+主要专注于能效核开发,通过大幅增加单CPU内核数量,以适应吞吐型应用。
这类应用能通过规模化扩展实现很好的性能倍增,且核心间通信依赖性低。同时,应用对性能指标要求不极致,满足一定性能即可满足业务需求。因此,至强6+的应用场景和目标客户主要为超大规模数据中心和电信运营商。
例如,英特尔与爱立信合作,将至强6+应用于5G核心网。爱立信通过vRAN技术研发和算法优化,利用单核或多核在特定频率下运行,即可满足其所需的延迟要求。在相同密度下堆叠更多核心,极大提升带宽吞吐量,从而处理更多5G请求。
再比如一些WebBrowser或者是一些独立的Web service的应用,因为对并发性、流量要求很高的应用,可以通过更高的核心数目来获得更好的效果,至强6+则可以很好的支持这一类场景应用。
需要指出的是,英特尔在E核中并未引入AVX-512指令集等一些针对AI比较有帮助的AMX引擎,因为上述指令集和AVX模块从尺寸和功耗上占据比较大的资源,考虑到极致的能效和密度,对内核进行了包括尺寸上的裁减和功耗设计能力上的相应裁减,也使得其能效核能够更加针对客户所关心的业务应用场景。
英特尔表示其内部在考虑和研究如何将AVX-512引入E核,但需要有一种有效率的方式,且实现的方式与传统AVX-512的实现方法有些许不同,从指令集的支持存在必要性,因为在软件上可以减少相关工作,但当前尚未有定论。
结语
至强6+(Clearwater Forest)的推出,既是英特尔在先进制程与架构创新上的集大成之作,也是其对数据中心市场和客户需求的精准回应。从18A制程的RibbonFET与PowerVia技术突破,到Darkmont E核17%的IPC提升、288核的密度飞跃,再到Foveros Direct 3D封装,每一项技术都直指 “高性能与高能效的平衡” 这一核心命题。
这款产品的价值,早已超越单一芯片的迭代:它不仅验证了英特尔在先进制造领域的引领能力,更为半导体行业树立了技术突破与客户价值并重的标杆。随着2026年量产落地,至强6+或将成为推动数据中心向 “高密度、低功耗” 转型的关键力量,持续延续摩尔定律在数据中心领域的生命力。