3D-IC竞争白热化!谁将称霸下一代芯片?
20 小时前 / 阅读约19分钟
来源:集微网
英特尔代工、台积电和三星代工正在争相提供完整3D-IC(三维集成电路)的所有基础组件,在未来几年内的某个时候,这些组件共同作用将以最低的功耗实现性能上几个数量级的提升。虽然业界关注焦点多集中在工艺节点进步上,但成功实现3D-IC应用远比仅仅缩小数字逻辑更为复杂和全面。

英特尔代工、台积电和三星代工正在争相提供完整3D-IC(三维集成电路)的所有基础组件,在未来几年内的某个时候,这些组件共同作用将以最低的功耗实现性能上几个数量级的提升。

虽然业界关注焦点多集中在工艺节点进步上,但成功实现3D-IC应用远比仅仅缩小数字逻辑更为复杂和全面。它需要新材料,以及处理更薄基板并将它们组合在一起的不同方法。这涉及不同的背面供电方案、各种类型的桥接技术、多芯片通信的接口标准,以及新的互连技术和方法。同时,这还需要对EDA(电子设计自动化)工具和方法、数字孪生技术、多物理场仿真进行大幅改进,同时还需对工程团队和流程进行重组,并在从设计到制造的多个阶段引入人工智能(AI)技术。

十多年来,3D-IC一直都在各代工厂的内部发展规划之中,但直到两年前ChatGPT推出,以及随后AI数据中心的建设,真正意义上的全芯片堆叠技术才开始蓬勃发展。从那以后,重点就一直放在大幅提升功耗效率和性能表现上,而实现这一目标的最佳途径是将片上系统(SoC)进行拆分,将大量计算单元并行化,并缩短信号在不同处理单元和存储器之间来回传输时所经过的距离,降低所遇到的电阻和电容。

垂直堆叠的优势

这些目标已广为人知,但要实现这些目标所需的一些技术仍在研发当中。这也就解释了为什么所有的代工厂都宣布计划在未来几年内各自投入约1000亿美元,以实现3D-IC大规模量产。有许多问题亟待解决,而且其中大多数问题都需要预先解决,并在实际芯片制造中得到验证,这样才能确保该技术得以应用。从技术或经济角度来看,仅仅依靠平面缩放所带来的功耗、性能以及面积/成本(PPA/C)方面的优势已远远不够。

台积电业务发展与全球销售高级副总裁张晓强(Kevin Zhang)表示:“晶体管技术和先进封装集成必须齐头并进,才能为客户提供完整的产品级解决方案。3D架构技术组合对我们而言已经变得至关重要。”

有充分的记录表明,在平面SoC中,信号的传输速度要比在某种类型的系统级封装内不同芯片之间的传输速度快。但是,尽管数字晶体管仍在不断缩小尺寸,SRAM(静态随机存取存储器)和线路却并非如此。而且在最先进的制程节点下,将所有组件都集成到单个光罩大小的芯片上,常常会导致良率低下,并且首次流片成功的概率也会大幅降低。

作为回应,系统公司和前沿处理器供应商已开始分解SoC,并将它们转变为由先进封装的Chiplet组成的组件。对于功能单一、面积较小的Chiplet而言,其良率要高于大型SoC,而且每个Chiplet的设计成本也更低。从理论上讲,为了提升性能,可组装到定制化封装中的Chiplet数量是没有限制的。

然而,当数据需要在内存和处理元件之间来回传输时,这些多芯片组件的性能会急剧下降。这就是常说的“内存墙”问题,它与距离以及信号在线路上的传输速度有关。高带宽存储器(HBM)对于三级缓存(L3 cache)来说效果相当不错。由于其通道更宽(HBM4有2048条通道),所以它比标准DRAM快得多,这有助于降低电阻和电容。但SRAM的速度仍然更快,因此它是一级缓存(L1 cache)和二级缓存(L2 cache)的首选内存。SRAM通常由六个晶体管构成,与使用一个晶体管和一个电容的DRAM相比,这极大地提高了访问速度。DRAM中的电容是为了解决电荷泄漏问题,因为当DRAM发热时,有时会自发出现电荷泄漏的情况。

混合方案会有所帮助,堆叠更多层的HBM也是如此。三星、SK海力士和美光科技是仅有的三家生产HBM的公司。三星已以此为跳板,开始针对特定的工作负载研发定制HBM。但最理想的解决方案是同时使用更多的HBM和SRAM,而且代工厂的最新发展规划显示,不同类型的内存以复杂的组合形式存在,且互连间距非常小,以便于数据传输。

英特尔最新的架构显示,Intel 14A(1.4nm)制程的逻辑层直接堆叠在SRAM层的上方。

图1:英特尔的3D-IC概念图,14A制程的Chiplet封装在SRAM上方,利用嵌入式多芯片互连桥(EMIB)技术将其与输入/输出(I/O)连接起来,并且周围环绕着用于三级缓存(L3 cache)的HBM。资料来源:英特尔

英特尔代工高级副总裁兼总经理Kevin O’Buckley表示:“每个人都在谈论‘内存墙’问题。随着我们不断增加内核数量,并将计算性能推向更高水平,首要任务就是满足数据处理的需求。3D就是一个例子,我们可以利用芯片面积的很大一部分来放置SRAM,而无需牺牲那些仍然需要用于计算的芯片面积。”

不过,这种方法需要一种截然不同的芯片组装方式。逻辑层对逻辑层的堆叠方式也是如此,这种方式已经规划多年,但由于散热问题在很大程度上被搁置。其目标是通过增加另一层处理元件和内存,使晶体管密度翻倍,并让它们像一个单一系统那样运行。

台积电的张晓强表示:“我们从面对背的集成方式入手,将两个芯片组合在一起。我们也在开发面对面的集成方式,让客户能够最大限度地提高两个芯片之间的互连密度。当我们将芯片堆叠在一起时,如果你关注一下超级键合间距,它会从9微米持续缩小到6微米,甚至一直缩小到5微米及以下。这种集成方式将包括面对背和面对面两种,以满足不同的应用需求。”

图2:台积电的3D-IC发展规划图,展示了不同的集成策略。资料来源:台积电

在2024年春天的一次演讲中,三星代工业务发展副总裁Taejoong Song展示了一份发展规划图,其特点是将逻辑层对逻辑层堆叠在一个衬底上,把一个2nm(SF2)制程的芯片堆叠在一个4nm(SF4X)制程的芯片上,这两个芯片又都堆叠在另一个衬底上。这基本上就是在一个2.5D封装上的3D-IC,有时也被称为3.5D。Taejoong Song表示,从2027年开始,该代工厂将开始把一个SF1.4(1.4nm)制程的芯片堆叠在SF2P(2nm)制程的芯片上。

图3:三星的3D-IC发展规划图。资料来源:三星

垂直堆叠的局限

无论采用何种布局,散热仍然是最大的挑战,这也是3D-IC发展如此缓慢最常被提及的原因。从那以后情况已经发生很大变化,而且处于技术前沿的芯片制造商对性能和功耗的要求,需要各方齐心协力来解决这一散热问题。

虽然这项技术的具体交付日期仍不明确,但目前三大代工厂都在其发展规划中突出展示了3D-IC。至少部分解决方案可能是将最新制程节点研发的逻辑电路与N-1或N-2制程的逻辑电路相结合。但目标是实现更紧密的集成,使其作为一个系统运行,并通过高速接口与从平面SoC中剥离出来的其他关键组件相连。

在过去几年里,已经出现多种散热问题的解决方案,但并非所有方案都已准备好投入大规模生产。其中包括:

热通孔:硅通孔可用于将热量直接从处理元件引导至封装外部的散热器。这里的挑战在于确定这些微型“烟囱”的数量以及设置位置,因为不同的工作负载会产生独特的热梯度。

蒸汽冷却这种方法的原理类似于蒸发式(又名沼泽)冷却器。当气体经过湿垫时,会吸收液体,然后蒸发,将部分热量散发到外部散热器。最初使用这种方法的实验失败了,因为目标设备是经常被移动和摇晃的手机。但在数据中心,服务器机架在使用时是固定不动的,使得这种方法更可行,而且成本相对较低。

微流控:这个概念可以追溯到20世纪80年代,当时大型主机需要用水进行冷却(如今对于某些系统来说,水冷再次成为可选项,不过不一定是用水)。这使得系统升级变得困难,而且和所有的管道系统一样,有时还会出现漏水的情况。当安装了风冷式小型计算机以及装满个人电脑服务器刀片的机架后,许多客户认为这是一个巨大的优势。但随着晶体管密度的提高以及工作负载的加重,通过微小通道输送液体的技术再次成为了积极研究的方向。

热界面材料:这些材料有垫片、膏状以及固体等形式,最近还出现了碳纳米管。它们在导热方面很有效,但价格昂贵,而且长期使用效果如何还缺乏足够的测试。行业内仍在努力确定使用哪些材料是最佳选择,以及以何种组合使用,届时规模经济效应或许会发挥作用。

沉浸式冷却:虽然这听起来有悖常理,但电子元件可以浸入惰性液体中而不会导致短路。这里面临的挑战在于液体的可重复使用性、可持续性以及成本问题。

为数据而设计

在多芯片组件中增加晶体管的数量也会加剧布线拥塞问题。先进的布局和布线工具已经能够实现大部分布线工作的自动化,但它们无法解决为所有晶体管供电的问题,而这对于维持性能至关重要。这就是为什么三大主要代工厂要么已经开发出、要么正在开发背面供电(BPD)技术的原因:

英特尔的PowerVia BPD将在今年的Intel 18A(1.8nm)制程节点中,与RibbonFET纳米片晶体管一同推出;

台积电将从2026年下半年开始,在A16(1.6nm)制程节点引入Super Power Rail BPD;

三星则计划在2027年,在2nm制程节点上推出SF2Z BPD技术。

将电源传输网络移到芯片外部,缩短了电力传输所需的距离,也使得信号在芯片的各个金属层间的传输更加简单。因此,如今布线无需再采用复杂的方式,尤其是在那些布满硅通孔并通过混合键合技术连接的芯片之间,布线可以变得更加直接。

Cadence高级产品总监Mick Posner表示:“能够在芯片之间安装成千上万个硅通孔,这很棒。但每个硅通孔每比特都需要0.003皮焦耳的能量,这个数值虽然很小。然而,当你把它们都集中在1平方毫米的区域内时,能量消耗就会积少成多。你需要进行热点分析,管理功耗以及计算密集型芯片的其他任务将是一个挑战。功率密度本来就会很高,而且我们已经看到,热膨胀会使芯片堆叠破裂。存在着许多挑战。但这也有提升性能的潜力。因为芯片的横向尺寸扩展是有限度的,所以现在就得往纵向发展。那么,为什么不打造一座‘芯片摩天大楼’呢?”

这就是大致的思路。然而,要充分发挥芯片堆叠的优势,这些芯片层需要更薄,以缩短信号传输的距离。此外,并非所有的芯片层都需要堆叠。例如,HBM可以设计为环绕3D-IC逻辑堆栈,并与I/O和其他内存进行高速连接。

为了真正加快速度,其中一些连接可能会采用光接口和共封装光学器件。所有主要的代工厂都将共封装光学器件纳入其发展规划,因为光能够以极快的速度传输数据,同时功耗和热量积聚更低。

图4:台积电计划将共封装光学器件与其3D-IC模型相结合。资料来源:台积电

图5:英特尔的光学器件发展规划图。资料来源:英特尔

英特尔代工业务首席技术和运营官兼总经理Naga Chandrasekaran在最近的一次演讲中表示:“光互连相比传统的电气I/O技术具有显著优势。在提高布线密度方面,它在带宽、延迟和能效方面都有优势。当我们能够将光互连提升到芯片间互连的水平,并结合英特尔先进的封装能力时,该解决方案将在我们扩展和扩展基于AI的解决方案方面带来显著优势。它将提供更密集、更先进的互连能力。此外,在计算领域,通过采用共封装光学解决方案,我们可以实现更低的延迟和更高的吞吐量。”

与3D-IC中的大多数问题一样,这比听起来更难。一方面,光不会转弯,所以波导不能有任何直角。它们还需要表面光滑,因为任何粗糙度都会产生与电互连中线边缘粗糙度相同的效果。除此之外,光会受到热的影响,在不可预测的工作负载下,可能会导致光的偏移超出预期。

英特尔的Kevin O’Buckley表示:“如今计算系统的实际情况是,它并不局限于一块电路板上。在大多数情况下,甚至也不局限于一个机架内。如果你看看当今世界上一些最大的系统公司正在做的事情,比如超大规模计算公司或英伟达正在开发的AI系统,就会发现,在提升性能指标方面,连接性和计算能力同样重要,它们能够扩展性能指标。铜长期以来一直是我们行业的支柱,而光纤则用于连接不同的城镇。现在,光纤技术允许太比特级的带宽在机架之间一致地传输,这一点至关重要。过去,这种连接通常发生在交换机层面。但由于这些系统对连贯性和延迟的要求,我们现在讨论的是将光纤直接连接到计算集群,而无需经过交换机。毫无疑问,这就是行业的发展方向。”

至少部分解决这个问题的方法是合理地放置光学组件。Kevin O’Buckley说:“这在很大程度上取决于激光源的位置。目前光学领域的一些创新在于,像多路复用(MUXing)这类元件往往对温度不是特别敏感。你可以把它们放置在离计算设备很近的地方。然后对于激光源和一些传感设备,你可以把它们放置得稍远一些。以这种方式处理一些光学组件,可以让你将激光源分离出来,这也是一些公司正在选择的做法。”

台积电的张晓强表示,光子技术也可用于降低芯片的热量。“在不久的将来,我们会看到客户使用集成硅光子技术将信号引出,以实现芯片间的连接。我们都知道,在信号传输方面,光子远比电子高效。电子在计算方面表现出色,但就信号传输而言,光子更具优势。”

张晓强还说,另一个关键选择是集成稳压器,它将进一步提高能源效率。“这一点非常重要,因为客户或者未来的AI产品需要将多个逻辑电路和多个HBM集成在一起。这些电路都会消耗电力。看看如今先进的AI加速器,其功耗轻松就能达到1000瓦。未来,功耗可能会达到几千瓦。要将电源引入这样的封装中是非常困难的,所以通过使用集成稳压器,由于凸点的数量有限,你可以降低对电流的需求。你不能无限制地输入那么大的电流。”这反过来又降低了封装内的整体热量。

制程微缩

这可能看起来有不合常理,但要最大限度地发挥3D-IC的性能优势,需要持续推进制程微缩。原因与其说是为了提升晶体管的性能——尽管芯片制造商肯定可以充分利用这一点——不如说是为了动态功率密度。更小的晶体管能效更高,这有助于在大型数据中心中减少热量产生并降低能源成本。此外,从鳍式场效应晶体管(FinFET)向环栅场效应晶体管(GAA FET)的转变减少了静态漏电,而静态漏电也会产生热量,且这些热量可能会积聚在封装内。

以台积电即将推出的A14制程节点为例,这是该代工厂在2nm制程之后的下一个完整制程节点。张晓强表示:“与上一代制程相比,A14制程的微缩带来的优势非常显著。它的速度提升高达15%,功耗降低30%,逻辑密度提高到原来的1.23倍。整体芯片密度至少是原来的1.2倍,所以这是一项非常非常重要的技术。这项技术还采用了NanoFlex Pro技术。这实际上是设计与技术协同优化的成果,使设计师能够以非常灵活的方式设计产品,从而实现最佳的功耗和性能优势。这项技术将于2028年投入生产。”

张晓强指出,该制程节点的第一个版本将不包括背面供电,这项技术要到2029年推出的第二个A14版本时才会添加。

图6:台积电的制程发展规划图。资料来源:台积电

英特尔的RibbonFET是该代工厂对GAA FET的命名,其中“Ribbon”部分还包含了一些可定制的选项。

图7:英特尔的工艺发展规划图。来源:英特尔

与此同时,三星在2nm节点引入了其GAA技术。

图8:三星的工艺发展规划图。来源:三星

当然,在微缩尺寸方面仍然存在一些常见问题。更薄的电介质可能会更快地失效,从而导致串扰和其他潜在的信号干扰。对于3D-IC堆叠中更薄的芯片来说也是如此,较薄的芯片会丧失较厚衬底所具有的绝缘性能,并且会加速时间相关介质击穿(TDDB)现象的发生。这类问题将对行业设计和组装这些设备的方式产生重大影响,会使布线变得更加复杂,并且需要进行更多的仿真、模拟、验证和调试工作。

新思科技(Synopsys)总裁兼CEO Sassine Ghazi在最近的一次演讲中指出:“3D-IC是将晶体管数量扩展到数千亿乃至数万亿的唯一途径。但当你开始向如此复杂的程度迈进时,要实现性能或功耗目标,唯一的方法就是在互连层面提高效率,并对多芯片系统进行高效架构设计。这些芯片可能来自不同的工艺技术,甚至不同的代工厂。你必须对架构进行验证和确认,才能实现这种先进的封装。”

未来的应用领域

3D-IC的初始应用将在AI数据中心内,但一旦工艺完善、问题得到解决,这种方法将能够更广泛地应用,同时可以采用更具针对性的组件组合方式。是否所有东西都需要完整的3D-IC,还是仅其中一些核心技术组件需要,目前仍有待确定。尽管如此,在堆叠芯片中所解决的技术问题将具有广泛的应用前景。

台积电的张晓强表示:“我们认为移动领域有很大的创新空间。我们认为,增强现实(AR)眼镜是一个能让我们拓展业务的未来机遇。这些眼镜是透明的,外形小巧,而且可以让人全天佩戴。为了能让电池续航一整天,同时具备所有的计算能力,你确实需要先进的芯片。你需要大量的传感设备,还需要具备连接功能,所以芯片的使用量会很大。”

他说,对于人形机器人来说也是如此。“汽车行业想要实现自动驾驶。你可以把汽车仅仅看作是制造机器人的第一步。汽车是一种简单的机器人,它只是把你从A地载到B地。但在未来,如果你真的希望一个机器人能与人类互动,帮你完成日常琐事,并处理很多人类不想做的事情,你就需要制造这些所谓的人形机器人。如果你深入了解这些机器人的内部构造,就会发现大量的芯片。首先,机器人需要具备智能,要有出色的AI能力,这就需要先进的芯片来为其具身智能提供支持。同时,机器人还需要有良好的传感能力和出色的功率输出。此外,还需要大量的集成控制器,以便在不同的条件下发挥功能。”

图9:人形机器人的芯片需求。来源:台积电

结论

不同的代工厂在开发3D-IC所需的所有必要组件方面处于不同的阶段。没有哪家代工厂能够一次性解决所有这些问题,如今芯片行业在一定程度上也更具包容性。由于供应链中持续存在地缘政治方面的干扰因素,芯片制造商们正在寻找多个供货来源和多种技术选择。

西门子EDA CEO Mike Ellow表示:“我们同时面临着机遇与挑战并存的两难困境。我们如何才能引导初入职场的工程师和职业工程师,让他们能够完成必须交付的众多新设计,并拥有所需的芯片?全球都依赖于一个有韧性、强大且分散的先进节点芯片供应链。除此之外,我们还需要一套融入AI的技术,将更广泛的生态系统连接起来,以便能够创建所有的设计内容。”

(校对/赵月)

参考链接:https://semiengineering.com/three-way-race-to-3d-ics/