在华为全联接大会2025上,华为组织的面向智算集群运维的专题论坛成功举行。来自科大讯飞、广东电信、华为的嘉宾在论坛上发表专题演讲,华为公共开发部总裁陆海鸥先生作开场致辞。论坛以“智能集群运维,点亮最强算力”为主题,紧跟AI大模型发展趋势的变化,与会嘉宾共同探讨智算集群运维新方向。
一年以来,AI大模型产业快速发展,DeepSeek等一系列技术的突破,加速AGI的到来,让AI能深入各行业,加速AI应用的大众化。2025年,可以说迎来了AI人工智能大规模应用的时代。这背后是对算力持续增长的巨大需求,同样也对算力集群运维提出了很多新的要求。集群运维要兼顾大规模集群训练的实际可用度,和推理生产场景的可靠性,实现快速诊断故障,进一步做到故障自隔离自闭环,保障推理业务高吞吐和低时延。
大模型驱动运维理念换新:华为iMaster CCAE,释放集群澎湃算力
华为计算CCAE领域总裁鲁驰表示,基于大模型从技术摸高走向“技术摸高+工程创新”并行的发展新趋势,集群运维出现两大变化:一是训练从SFT向RL强化学习演进,训推反复迭代带来故障模式变化,对训练作业可用度提出更大挑战;二是推理场景MoE模型和大规模专家并行成为主流,从PD混部走向PD分离推理方式,对推理业务可靠性提出极高挑战。华为提出基于“运管中台+集群自智引擎”的运维架构,并发布iMaster CCAE集群自智引擎,构筑高效智算运维。鲁驰现场详细解读CCAE新增的三大核心能力,通过月度级故障模式库、源代码级运维大模型、超大规模集群管理,实现万卡训练作业可用度99%、百/千卡推理业务可靠性99.99%。目前CCAE已经在60+集群上进行了部署和应用,行业涵盖运营商、互联网、以及金融、教育等国计民生。iMaster CCAE为业界提高集群作业可用度、保障推理高可靠提供了实用的解决方案。
华为鲁驰在分论坛现场
产品升级应对运维新场景:CCAE技术创新铸就集群高可用
华为CCAE产品首席架构师杜晓东表示,CCAE产品系统设计始终围绕AI硬件、智算范式、业务特点变化,对集群可用度、推理可靠性带来新的技术挑战。CCAE以磐石架构和运维大模型为基石,变被动响应为主动运维,驱动运维高度自治,达成集群高可用99%,高可靠99.99%,极致释放集群效能。在论坛现场杜晓东向业界全面解读了CCAE技术框架,并重点介绍光模块亚健康/失效问题提前感知、iSID集群智能拨测、推理业务分钟级主动故障感知和诊断、LogAnalyzer日志大模型技术,以及超大规模集群管理中台技术。展望智算运维的演进,杜晓东提出由传统运维到AgenticOPS的模式变革,逐步实现从可管可维到主动自治,最终实现无人值守。
华为杜晓东在分论坛现场
运维大模型实践:科大讯飞应用LogAnalyzer运维大模型快速诊断疑难故障
科大讯飞AI工程院总监鲍中帅表示,科大讯飞在飞星一号集群的训练和运维积累了较丰富经验,从面向基础设施的智能运维,逐渐走向面向作业的智能运维,业务挑战有了新的变化。在故障模式库已覆盖场景诊断准确率85%+,在未覆盖场景面临需要加强未知故障定位准确率的难题。科大讯飞和华为持续合作,今年首次引入基于日志大模型底座的AI辅助分析引擎LogAnalyzer,基于大模型全面分析算网存各域日志,显著提升故障定位效率,整体准确率达到88%。鲍中帅表示,双方还将持续联合创新,从LogAnalyzer走向多AI Agent系统,打造业界领先的智算集群智能化运维解决方案。
科大讯飞鲍中帅在分论坛现场
超节点运维实践:广东电信布局智能运维,打造领先的超节点智算集群
广东电信ICNOC云智算团队总监刘光表示,广东电信构筑先进算力中心,首个商用昇腾超节点在中国电信粤港澳大湾区(韶关)算力集群正式发布,对内满足AI公司、研究院模型自训,对外承接快速增长的算力需求。在昇腾超节点运维上,广东电信使用CCAE运维,对接亿讯平台,解决光故障、跨域协同和集群可靠性等关键运维问题。CCAE提供集群健康检查、作业故障定界定位、高速总线网络管理、光故障分析、慢节点慢网络识别等能力,融入广东电信运维团队日常运维流程中,持续提升工具链易用性,使能超节点集群高可用性。
广东电信刘光在分论坛现场