应对 AI 算力网络难题,是德科技推出 KAI 系列方案与三款测试设备
1 天前 / 阅读约7分钟
来源:集微网
是德科技发布全新KAI系列解决方案和三款新品测试设备。通过仿真真实世界的AI工作负载,对AI集群组件进行验证,确保了AI数据中心网络的可靠、出色运行。

当今人工智能的快速发展是以庞大的算力集群和网络为支撑,而算力网络的稳定运行又依托于检测方案与设备。近日,是德科技发布全新KAI系列解决方案和三款新品测试设备。通过仿真真实世界的AI工作负载,对AI集群组件进行验证,确保了AI数据中心网络的可靠、出色运行。

AI 浪潮席卷全球,算力网络暗存瓶颈

今年年初,DeepSeek的发布将生成式人工智能从曲高和寡、更多关注技术演进的状态,变成一款实用性很强的工具。自从DeepSeek面世以来,很多企业机构均开始在小范围内使用这样一款人工智能工具。根据Bloomberg统计,2022年AI市场大概在869亿美元量级,到2030年将达到1.3万亿美元规模。MarketsandMarkets预计,从2024年到2030年,AI市场的年增长率将超过30%。IDC预测,到2030年人工智能将为全球经济贡献19.9万亿美元,占全球GDP的3.5%。

对此,是德科技大中华区高速数字市场部经理李坚指出,不仅仅是在未来的一到两年,可能在五到十年的时间里,人工智能市场都将拥有快速增长的机会。这种增长机会不仅仅来自算力基础设施,未来可能更多来自应用和服务。

然而,在人工智能在快速发展的同时,我们也必须关注到人工智能算力网络建设中所面临的挑战。首先,当今行业内进行的是真正的大模型、大算力运算。大算力的一个重要基础就是大带宽和大量的数据交换。底层则是由以太网、存储、铜缆、PCIe接口等搭建而成的基础设施。

如今以太网的量级标准大多为400/800G。乐观估计,至2030年以前,以太网带宽将上升到1.6/3.2T,增长4-8倍。由于以太网更多是在各个超级节点之间进行数据交换,随着模型的增大,算力节点增多,需要更强的数据交换能力,对以太网的要求也会更高。

然而,随着网络带宽的增大,大量器件将在接近其物理极限的性能下运行,器件是否能够稳定工作成为问题。很多器件在带宽增大后功耗也随之增加,进而使器件温度也随之变化;一些器件对温度高度敏感,特别是光学器件,温度稍微有变,器件性能就会改变;其他器件也会因干扰出现各种各样的问题。

此外,当今的数据中心进行大模型计算所需服务器已经不是几百块或者几千块计算卡,而是万卡集群、十万卡集群。在这样大规模计算集群中,各个超级节点大量采用的是铜缆连接,而非传统上PCB板传递信号,比如英伟达发布的NVL72机柜。这样的环境下使用PCB板传递信号,损耗太大、干扰太大。算力中心的通信、数据交互也不再是简单的从客户端到服务器的“南北”通信,各个节点之间都存在大量的横向通信、“东西”通信。也就是说,当前我们面临的是一个“全网络”概念。在以往南北通信为主的情况下,一个节点的损坏可以由其他节点接入弥补。在全网络的时代,断掉一个节点,整个网络的效率都可能出现问题。

“实际情况是网络越大往往意味着就越脆弱。这是目前整个产业界面临的共同问题。也就是说,我们需要更好的仿真检测方案,以增强网络设计、网络参数配置、网络互连等方面的可靠性。”李坚强调。

KAI 系列与三款新品,是德科技的解决方案

针对上述挑战,是德科技近日发布了全新KAI(Keysight AI)系列端到端解决方案,旨在帮助用户通过仿真真实世界的AI工作负载,来验证AI集群组件,从而扩展数据中心的AI处理能力。同时,是德科技还推出了三款新品:AI数据中心构建器、互连与网络性能测试仪、DCA-M采样示波器,增强业界应对AI算力网络持续扩展的新挑战。

李坚介绍,是德科技从1939年就开始进入检测设备领域,已有80多年历史,期间为用户提供了各种各样的检测产品,包括信号源、频谱仪、示波器等,并与英伟达、CISCO、Arista、Google、Microsoft等用户和伙伴长期合作。

根据自身经验和客户反馈,是德科技逐步丰富了AI数据中心或人工智能产品的产品矩阵。KAI解决方案就是在这种背景下所开发,其基本涵盖四大产品板块,覆盖数据中心中的主要应用场景。

在计算应用场景方面,KAI针对GPU板卡以及GPU和GPU之间通信可能用到PCIe传输接口,GPU和DDR或HBM等存储单元之间可能用到的板卡组件上,同时包括部分设计软件的检测。互连场景方面,以前板卡内部和板卡之间使用PCB传输信号,大算力数据中心改为使用铜缆或者光缆。KAI面对这种改变提供检测方案。至于网络场景,涉及GPU板卡间的网络,从物理层到传输层、网络层,乃至应用层,KAI都可以提供检测支持,解决网络通信中遇到的各种问题。在能效场景中,万卡集群的耗电量巨大。据估算,一个10万卡集群每年耗电量约为1.59太瓦时,按照美国电力的标准费率0.78美元/千瓦时,每年的用电成本达到1.24亿美元。数据中心设计之初就要考虑绿色节能,器件的节能效果,器件之间的转换能耗都是需要考虑的因素。KAI解决方案针对以上四大场景,都提供了有效的检测方案。

本次发布,是德科技还推出的三款新产品:一是KAI数据中心构建器。这是一款仿真测试软件。AI服务提供商使用各种并行处理策略来加速AI模型训练。KAI数据中心构建器的工作负载模拟功能可以将大模型训练时所需要的工作负载集成到AI基础设施组件的设计和验证中——包括网络、主机和加速器,再现了真实AI训练任务的网络通信模式。

二是互连与网络性能测试仪。几十年来,验证网络互连性能需要手动操作,耗费大量时间。随着AI和数据中心规模不断增加,传统测试方法已无法准确预测。新的互连和网络性能测试系统通过INPT-1600GE搭配ITS软件,可以作为一个整体系统,智能地组织、存储和使用数据,实现高速以太网网络和AI数据中心中的互连自动化验证。

三是DCA-M采样示波器。未来,AI数据中心将采用1.6T光互连。这需要具有大带宽、低噪声和高灵敏度的精确测试设备才能予以支持。DCA-M采样示波器可提供224 Gbps/通道的高速光信号分析,具有高光学测量灵敏度和集成时钟恢复功能,支持120 GBaud的数据速率。

针对KAI解决方案以及三款检测设备新品,李坚表示:“我们希望形成一个全生命周期的解决方案,从客户的预研、仿真、设计到初级的样品测试,再到生产制造以及维护,都有方案进行覆盖。是德科技对AI产业的发展前景十分看好。目前的AI产业仍然处于成长阶段,远远没有到达饱和。现在的AI算力网络里还存在许多问题需要解决,从物理层到网络层。这也是本次是德科技如此大规模地推出产品解决方案的初衷,希望助力AI产业取得更好的发展。”