三大头部互联网企业交锋,AI时代可观测边界出现了吗?
来源:36kr 7 小时前

LLM 的推理能力与生成式 AI 的数据理解能力,为可观测技术的演进提供了全新思路。另一方面,可观测技术也在反哺 AI 领域。那么, AI 与可观测技术是如何双向赋能的?AIOps 从实验到生产、从口号到落地的行动路径又是怎么样的?

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请阿里云可观测技术架构负责人、高级技术专家张城担任主持人,和阿里云算法专家李也博士、字节跳动 Dev-Infra 观测平台算法负责人董善东博士、小红书可观测团队负责人王亚普一起,在QCon全球软件开发大会2025 上海站即将召开之际,共同探讨 AI 时代可观测的新边界。

部分精彩观点如下:

  • 传统可观测主要是“看见”,而未来的新一代运维范式有望实现“发现—分析—解决—复盘”的完整闭环。在这个过程中,可观测系统正从单纯的“眼睛”,演化为同时具备“大脑”和“手”的角色。
  • 只有当我们拥有贴近真实场景的评测标准,并在大量真实案例上验证模型的表现,确认它在该说“不知道”时能坦诚地说“不会”,不乱编、不幻觉,那么我们才能真正建立起对 AI 的信任机制。
  • “垃圾进,垃圾出”的定律在 AI 时代不仅没有失效,反而因 LLM 对数据规模和质量的高依赖被显著放大。
  • 三到五年内实现“半自治”运维是可行的,部分场景甚至能实现闭环自动化。但要达到完全自治、真正实现所谓“咖啡式运维”,仍有很长的路要走。

以下内容基于直播速记整理,经 InfoQ 删减。

完整直播回放可查看:https://www.infoq.cn/video/YOTeVHta0A3Xqq2l4Bbp

张城:在你们看来,AI 正在给可观测性这件“事”本身,带来哪些根本性的、不同于以往的改变?

李也:一是 “AI for 可观测”。过去,我们需要手动编写 SQL 来提取和分析数据。而现在,只要为大模型提供清晰的上下文和数据格式,它就能出色地自动生成 SQL、配置大盘和定时任务。我们内部评测显示,在上下文充足时,大模型在此类任务上的准确率可达 80%-90%,甚至超过不熟悉 SQL 的工程师。这意味着,数据的提取方式已被彻底改变。

在更复杂的探索性、关联性分析方面,AI 同样能提供助力。例如,将复杂的系统场景截图交给大模型,其分析结果有时优于新手工程师。虽然它目前还无法替代专家进行根因分析,但已能显著提升所有工程师的工作效率。从“给人看”转向“给 AI 看”。未来的关键不再仅仅是美观的可视化,而是如何以结构化的方式组织数据,使其能高效地被大模型理解与利用。

二是 “可观测 for AI”。AI 系统的出现带来了新的可观测需求。大模型的每次调用都会产生成本,因此生成的所有 trace 数据都会被保留,这大幅增加了存储需求。同时,AI 系统的分析和诊断也更加复杂。当一个大模型在 workflow 或 agent 执行中出现问题,我们需要能够诊断其原因,评估其性能。比如,它在 RAG 环节是否检索到了正确的文档?幻觉是在哪个阶段产生的?这些都对新一代可观测系统提出了更高要求。再比如,在大规模 GPU 集群中实现高效可观测与故障自愈,也成为新的挑战。

董善东:LLM 为可观测领域提供了一个通用的“大脑基座”,显著改变了传统 AIOps 的实施方式。

过去,我们实施 AIOps 算法需要从零开始:结合场景目标、收集清洗数据、再建模训练与调优。而 LLM 的引入,为我们提供了一个天然的“六七十分”基础能力,使我们能更快、更好地在具体观测场景中构建出可用的演示原型。正如许多专家所言,LLM 相当于为各行各业配备了具备通用能力的大学生,而后续在本领域的深化优化,仍需行业自身完成。

LLM 在多模态理解与融合方面表现出色,其效果提升与反馈机制也更加高效。关键之一在于多模态上下文的应用:我们的任务重点转变为如何为 LLM 提供更全面、高质量的上下文信息,而最困难的多源信息融合与理解环节,则由 LLM 承担。以异常检测为例,传统方法多局限于单一指标,而 LLM 能够综合指标、日志、追踪等多类数据,实现更全面的异常判断。更优质的上下文,必将带来更出色的检测效果。

此外,传统方法中融入人工反馈通常需要重新训练模型,而 LLM 凭借其强大的文本理解能力,可以快速、便捷地将人工反馈应用于下一次检测任务中。

相较于传统 AIOps 往往针对单点场景进行优化,LLM 的引入使得从告警全生命周期——包括发现问题、分析、处理、复盘、预防乃至系统自愈——进行整体优化成为可能。我们可以在现有观测数据平台与各类小模型的基础上,通过 Agent 架构,将整个流程有效串联起来:LLM 与领域知识共同构成决策“大脑”,观测数据与小模型则作为“工具手”,让 Agent 能够逐条处理告警,与人协同工作。未来,它甚至可能像数字生命一样,承担起 SRE 的职责。

王亚普:AI 训练过程出现问题时,常常表现为整体“卡住”,这使得系统稳定性和复杂度显著增加。过去的可观测主要依赖规则和阈值告警,针对已知问题;而 AI 的引入让系统具备一定的语义理解和推理能力,可以对未知问题进行可解释、可验证的分析。在以往的工作中,我们人工排查性能劣化可能需要数小时。而借助 AI,我们可以自动分析指标、链路和变更之间的关联,从被动响应转向主动可观测,甚至进一步实现推理与洞察的能力。

过去,运维或研发人员需要掌握复杂的查询语言,并理解监控平台的各种概念。而现在,AI 让可观测变得对话式,工程师只需输入诸如“帮我查一下日志成功率”这样的自然语言请求,大模型即可完成分析。历史上,可观测平台往往是支撑性系统,难以满足各业务线的定制需求。但有了 AI,自助式服务和个性化编排成为可能。可观测平台可以聚焦于底层能力和抽象输出,业务团队则能自由组合工具,实现“千人千面”的运维体验。

第三个层面是智能决策闭环的形成。传统可观测主要是“看见”,而未来的新一代运维范式有望实现“发现—分析—解决—复盘”的完整闭环。在这个过程中,可观测系统正从单纯的“眼睛”,演化为同时具备“大脑”和“手”的角色。

张城:对于一个 AI Agent ,我们到底该如何衡量它的“智能”?是实验室评测集的分数更重要,还是它在复杂线上环境中解决实际问题的“实战能力”更重要?**

董善东:衡量一个 AI Agent 的智能,得分成通用能力和专属能力 2 块来考虑。

对于通用化能力,现在无论是对于 LLM 的 benchmark,MMLU、MATH 等,还是像对于 Agent 能力的评估: AgentBench、SWE-bench 等,都有很好的参考意义,度量了 LLM 的通用理解、推理、规划等各方面的能力。

而对于专属能力,这里则更需要考虑它解决实际问题的实战能力。这一点在观测领域尤为显著。当然像 AIOps 社区围绕着观测、排障已经构建了一些 demo 以及对应的数据集,在这些数据集上可以作为一个参考。但是在各个公司内,我看到的是有很多相对更加复杂、需求也不一定是标准化的问题,这对于 AI Agent 的实战能力要求也是更高。

以观测领域场景的 RCA 为例,我个人简单对 AI Agent 的粗略分级,供大家参考:

L1 +:单点增强:在某一个具体的问题上,分析流程还是以前的流程,但是 AI Agent 可以协助做一些环节的分析增强。

L2:自主性解决问题。RCA 完全 Agent 化,当有一个自定义的指标出现问题后,AI Agent 可以根据预设的 SOP 和实际情况进行规划、执行,直至完成。

L3:学习。在人类定下一个值守目标、任务的基础之上,可以自行阅读团队内的文档、资料,进行知识提取和学习。当用户询问一个通用化排障流程,也能够按照流程去评估自己是否可以正确执行。如果缺少了一些工具,可以自己按照一定的协议和格式来生成补充这些工具,最后将一个排障流程正确执行完成并输出。

李也:实战能力更为重要,实验室评测应尽可能贴近真实场景。目前一些大模型榜单存在“刷榜”现象。以 SWE Bench Verified 为例,仅包含约 500 道题目。如果算法工程师每天修复一个错误案例,持续一年,几乎可以“背熟”整个数据集,通过人为过拟合的方式获得高分。这导致实验室评分往往无法真实反映模型的实战水平。

类似问题在其他领域同样存在。例如微服务场景中,实验室基准测试通常只涉及十几个服务,而真实生产系统可能有上百个,且每个服务包含大量操作,复杂度完全不在一个量级。实验室中通过混沌工程注入的故障类型相对有限,而现实中的故障千奇百怪。如果仅用已知问题做验证,算法表现可能并不优于规则系统,无法体现大模型在未知场景中的泛化能力。

评估实战能力需要合理划分任务难度。不能让“小学一年级学生去答高考题”。同样,如果让当前大模型直接处理 L3 级别的复杂任务,可能全部失败,但这并不代表 AI 无用,而是说明它目前尚不适合此类高阶场景。相反,在诸如将自然语言转换为 SQL 或 PromQL 等确定性较高的任务中,大模型已表现可靠。这类贴近实战的评测,才能真正增强我们对 AI 落地的信心。

张城:大模型的出现,是否意味着我们过去依赖的、非常精致的传统算法遇到了天花板?它在处理可观测性数据时,到底带来了哪些“质”的不同?

王亚普:传统算法尚未遇到天花板,其最大优势在于确定性。许多场景中,传统算法依然不可替代。以时序异常检测为例,目前各家生产系统仍在大规模使用相关算法,它们具有响应快、资源消耗低、可控性强、稳定性好的特点。对于一些成熟的小模型算法,只要场景明确,其准确率可以非常高,延迟甚至可控制在毫秒级,这是当前大模型难以匹敌的优势。

但大模型的出现带来了质的变化,主要体现在学习与提效能力上。传统算法在处理单一数据源时非常高效,但在多模态、跨领域的复杂问题上力不从心。而大模型能够同时理解多种信息,包括指标曲线、日志文本、用户反馈、代码变更等,并在它们之间建立关联。这种“融会贯通”的能力正是传统算法难以实现的。

第二个优势是可编程与可解释性。传统算法往往需要采集数据、人工标注、调参训练,工作量巨大。而大模型可以通过推理链和工具调用,自动拼装故障诊断流程。例如,它能根据逻辑顺序决定先检查哪条业务线、再分析 24 小时内的变更,最后是否需要进一步下钻。这种自动化推理显著缩短了定位时间,大幅提升了人力效率。

第三个优势是泛化能力。传统算法虽然在特定场景下表现优异,但一旦迁移到新环境,就需要重新训练和调优,成本高且稳定性差。而大模型具备较好的迁移性和适配性,能够快速应对新的应用场景。这种泛化能力也是大模型带来的又一次质变。

张城:未来的可观测平台技术栈里,大模型和传统算法会是什么关系?是“取代”,是“互补”,还是某种新的“协同”模式?

王亚普:传统算法与大模型之间的关系并非对立,而是分工协作、优势互补,就像人类大脑中存在不同的认知系统。一个系统是快速、自动化的反应系统,例如开车时看到红灯立即刹车,或在听到警报时本能地产生警觉,这种反应不需要深度思考,效率极高;另一个系统则是需要缓慢思考、整合知识、深入分析的系统,比如诊断复杂问题或做出关键决策。两者并不冲突,而是协同工作的。

从这个角度看,传统算法更像是前者,针对特定场景进行训练,能在已知范围内做出快速、准确、稳定的反应,类似“肌肉记忆”;而大模型则更像后者,它具备广泛的知识储备和复杂的推理能力,能处理跨领域、复杂的信息问题,但响应速度较慢,资源消耗更高,有时甚至会“想得太多”。

过去,传统算法是唯一选择;如今,大模型成为新的主角,而传统算法转为配角,但其价值并未降低。相反,它找到了更合适的位置。我们不应将两者视为“非此即彼”的选择,而应通过协作机制让它们优势互补,实现 “1 + 1 > 2”。

李也:针对“取代关系”这个问题,我想用“排除法”来讨论。首先排除大模型取代传统算法的可能性。传统算法和 CPU 算子已经能很好地处理线上约 80%–90% 的场景。以阿里云的实践为例,基于规则的方法能够拦截或自愈系统在 60%–70% 以上的异常情况。这类方法运行高效、消耗低、可解释性强,既然“杀鸡不用牛刀”,我们没有必要动用计算开销巨大的大模型来处理这些问题。

此外,即便不考虑效率和成本问题,从技术角度看,大模型也不适合直接处理原始的可观测数据,因为数据量极其庞大。例如,一分钟的 trace 数据可能达到数 GB,如果将这些数据全部输入大模型,会直接导致 context window 溢出;日志数据的体量更是成倍增长。因此,目前的自然语言大模型无法直接处理如此规模的原始数据。

即便我们对数据进行压缩再输入模型,由于这些模型主要基于自然语言文本训练,它们对“机器生成的数据”缺乏先验认知。可观测数据以时序数值和机器日志为主,而大模型学习的语料是人类语言,两者存在天然差异。因此,大模型在可观测领域需要进行领域微调或强化学习,才能具备实用价值。例如,在根因排序(Root Cause Ranking)任务中,如果直接使用开源的通用大模型,准确率往往只有 30%–40%,甚至更低;但经过可观测领域的专门微调或强化学习后,准确率可提升至 80%–90% 以上。

综上所述,大模型无法取代传统算法,而通用大模型在可观测领域也并非“万能”。在特定垂直场景下,我们仍需要“又快又准”的领域模型。同时,也不应固守旧有的规则体系,在该协同时就应协同。以往我们手工编写大量规则,而现在大模型可以帮助总结规律、生成标注,通过数据驱动的方式自动学习并提炼出规则,从而减少人工维护。

董善东:我理解的还是互补和增强的协同关系。

一方面,在很多观测场景下,确实小模型在执行的效率、准确率上都已经非常不错。这些场景下就让小模型来执行就可以了。对应的小模型也可以作为 tools 被 Agent 所使用。当然 LLM 可能也可以取得等同的准确率,但是在运行效率上肯定是不如这些小模型的。

另外一方面,大模型确实在很多地方又可以来增强小模型。以检测为例:传统的小模型构建好了之后,如果在某些场景下的 bad case 无法优化,这时候也可以考虑通过引入 LLM 和知识库,对小模型的结果做一些校正,来增强原始异常检测效果。另外,有些缺失空白的环节,如果没有做小模型,也可以快速地拿 LLM 来补齐这个环节。以 RCA 为例,很多厂商已经搭建好了微服务级别的 RCA 的分析模型。这时候定位到数据库,数据库定位分析可能又不是团队擅长,这时候就可以用 LLM 来快速补齐这一个环节的能力。

张城:技术路径清晰之后,一个更棘手的问题就浮出水面了:信任。 当 AI 的诊断甚至决策建议摆在我们面前时,我们敢不敢相信?各位在实践中,是如何解决这个“信任”难题的?如何构建让人放心的机制?

李也:我们坐出租车时,为什么会信任司机?是因为他经过专业培训、拥有丰富经验?还是因为他具备可解释、可验证的安全机制?我们为什么信任飞机?难道是因为我们能用数学或物理公式证明飞机不会掉下来吗?显然不是。真正的原因是:我们坐了成百上千次飞机、打了无数次出租车,而它们几乎从未出过事。

回到大模型,我们可能永远也无法“数学证明”它是绝对可信的。它依然会出现各种 bad case,产生幻觉,目前人类也还没有足够的认知能力去彻底验证大模型的可被信任性。但我们能做的,是通过大量实践与真实评测去建立信任。

比如,如果我们尝试了一万次,其中 9999 次模型都给出了正确的结果,没有“胡说八道”,我们就会逐渐建立起信任感。相反,如果十次中有两三次结果不靠谱,那信任就会打折;如果十次有八次不靠谱,那基本就无法使用了。

因此,信任与评测体系密切相关。只有当我们拥有贴近真实场景的评测标准,并在大量真实案例上验证模型的表现,确认它在该说“不知道”时能坦诚地说“不会”,不乱编、不幻觉,那么我们才能真正建立起对 AI 的信任机制。

王亚普:目前,无论是 GPT 还是其他大模型,其可靠性与确定性仍是工程上的难题。因此,在上线任何新功能时,我们都不会盲目信任它,而是采用灰度验证等手段逐步放量。这并非“不信任”,而是以审慎的方式去建立信任。

“信任”是一个渐进的过程,从辅助决策阶段,再到真正赋能核心决策阶段。在早期阶段,AI 应当只是“助手”或“建议者”,不直接拥有决策权。接下来,可以选择一些低风险场景来让 AI 自主处理,比如常见的运维咨询、日报生成、复盘报告等。这些任务即便出错,影响也可控。通过在这些场景中积累上千、上万次成功案例,我们就能逐步建立起团队对 AI 的信任,最终再把它推广到高价值、关键决策的应用中。

当然,当 AI 进入更关键的环节时,必须具备三种保障机制:1、可解释性:AI 在给出结论时,应当能提供推理路径和验证依据,让使用者能复核其逻辑;2、可审计性:所有 AI 决策过程都应记录为审计日志,关键链路要有审批机制和约束条件,确保 AI 是“加速决策”,而非“跳过安全流程”;3、可回滚性:在高风险任务中,AI 的操作必须支持快速回滚,一旦判断错误,可通过“一键撤销”或状态恢复机制还原现场。

AI 的价值在于提升效率、加速决策,而不是取代安全流程或责任机制。工程化的信任建设,正是让 AI 真正“可用、可控、可信”的关键。

董善东:AI 信任的建立,本质是一个循序渐进的过程,不能一蹴而就。它需要围绕两类关键变量展开:一是“人”的接受度差异,二是“场景”的效果验证。

从“易接受人群”切入,建立初始信任样本。不同业务团队对 AI 的接受度天然存在差异,有些团队更愿意尝试新技术。优先选择这类“激进型”业务团队深度合作,而非全面铺开。借助他们的实践,快速验证 AI 在具体场景的价值,形成可复制的信任案例。

嵌入日常路径,让 AI“润物细无声”地积累信任。早期阶段,核心是让 AI 融入人的现有工作流程,避免增加额外使用成本。以“告警群事件处理”为例,可分两步推进:第一步:做“辅助者”:在告警卡片的回复中,自动附带 AI 生成的分析和修复建议。用户无需主动调用,每次处理告警都能看到 AI 输出,逐步形成认知。第二步:做“勤杂工”:承接重复性工作,比如定期总结告警群的事件数据、梳理需重点关注的问题。让用户从“观察 AI”过渡到“依赖 AI 减负”。当然这一步还可以加上定期的一些 case 准确率统计, 让使用者更有量化的体感,强化使用 AI 效果还不错的印象和认知。

场景效果作为重要衡量指标,控制推广节奏。信任的核心支撑是“效果可靠”,必须避免因盲目推广破坏信任。聚焦单一场景做深做透,待效果稳定、用户认可后,再横向推广到其他场景。一旦某场景出现频繁失误,会直接打击用户信心,后续重建信任的成本会更高。

张城:当 AI 接管了大量重复性工作后,SRE 和运维工程师的核心价值会转向哪里?是会升级为“AI 训练师”和“复杂问题专家”,还是会面临巨大的转型挑战?

董善东:首先说挑战。传统的 SRE 往往承担大量重复性工作,这些工作虽然枯燥,但也让团队形成了某种稳定结构。然而,随着大模型和 SRE Agent 的落地与优化,这些重复性任务将被率先自动化。结果是,SRE 将不得不向更复杂、更高价值的问题转型,也意味着每个人都需要成为“复杂问题专家”。

我仍坚持机遇大于挑战。因为长期从事重复性工作并不会带来成长,而当这些工作被 Agent 接管后,人力被释放出来,就能专注于更复杂、更具价值的任务。只有在有时间、有空间不断学习和处理复杂问题时,SRE 才能真正成长为专家。

其次,随着 Agent 的深入应用,“人如何与 Agent 协作”将成为新的课题。SRE 拥有强大的领域知识,比算法工程师更了解运维场景,他们能将自身经验结构化、沉淀为可复用的知识,进一步赋能 AI。SRE 也因此逐渐具备了“AI 训练师”的角色。虽然这种训练不同于传统模型训练,但在整理经验、与 Agent 高效协作的过程中,SRE 的专业能力会不断提升。

王亚普:AI 时代不是淘汰,而是“升维”。以 SRE 为例,过去我们更像“救火员”,而未来则会转型为“高可用架构师”。当 AI 接管告警、常规排查等琐碎事务后,SRE 将有时间思考更本质的问题,比如系统架构是否合理、哪些地方存在设计缺陷、如何从根源提升系统稳定性。这就是高可用架构师的价值所在。

此外,SRE 还会承担“AI 训练师”的角色。SRE 的专家经验极其宝贵——踩过的坑、总结的最佳实践、制定的高可用标准,都是训练 AI 的重要素材。AI 要变得真正智能,就离不开人类专家对知识的结构化整理与持续输入。

这意味着 SRE 的角色正从“单兵作战”变成人机协作。SRE 需要学会指挥、验证 AI 的输出,并在必要时接管控制。这就像使用 AI Coding,它能显著提升效率,但人仍需负责复核与决策。

当然,这种转型对所有行业都是挑战。唯一不变的是,我们必须持续学习,拓展思维方式,从“做事的人”转变为“抽象问题、设计系统的人”。

李也:我认为谈论 SRE 时要区分两类角色:初级岗位与专家岗位。未来,这两类角色会呈现明显的两极分化。因为真正的专家型 SRE 平时并不做重复劳动,他们负责解决新问题、建立 SOP、编写自动化代码并做关键决策。无论是制定架构策略还是审批关键变更,仍然需要人来承担责任。即使是简单系统,交给大模型运维也不够可靠。专家不仅不会被淘汰,反而会因为能“带 AI 小弟”而价值倍增。过去一个专家可能独立作战,未来他能带领多个智能 Agent 协同工作,显著放大产出。

与此同时,那些只负责执行重复任务的初级岗位可能会逐渐消失,因为这部分工作已经被自动化完成。未来的大模型甚至可能能主动提出新的 SOP 或解决思路,专家只需审核与确认,但最终责任仍在专家身上——“点同意的人也要能背锅”。这也意味着,未来的 SRE 专家不仅要懂技术,更要有深厚的领域经验与判断力。

张城:只要“背锅”的岗位还存在,SRE 就不会消失。我有个同事十几年前加入阿里时,做的“运维工作”是真正在机房里搬机器、插线的。这样的岗位如今确实没有了,但这个人依然在阿里,并且成长为新的角色。由此可见,只要保持持续学习与自我提升的心态,无论技术如何变化,人总能找到自己的位置。

在 AI 时代,“垃圾进,垃圾出”的定律是否被放大了?各位在可观测数据的质量治理、规范统一方面,有哪些特别想分享的经验或教训?李也:** 一个新的 SRE 工程师入职后,如果没有任何培训资料,也不了解可观测系统中各个 schema 字段的含义,那他是无法开展工作的。从这个角度来说,所谓的“context engineering”在大模型中更显重要。如果我们不明确告诉模型这些可观测数据字段的含义,不对数据进行治理,也不将系统的运行流程和知识传递给它,它就无法正常运作。人也一样,缺乏上下文信息就无法处理问题。这是第一点。

第二点,可观测数据的规模极大,其中相当一部分其实是“垃圾数据”,例如重复的日志,没有变化、没有价值。在大模型时代,这些“垃圾”数据不应直接输入模型,而是需要经过筛选与过滤,提取有价值的信息,缩短模型所需的上下文长度。

第三点,与强化学习相关。在强化学习的实践中,可验证的奖励信号至关重要。可观测性领域中,若某个现象或问题的根因并不明确,甚至连人都判断不清楚,往往是因为我们缺乏足够的观测数据。这种情况下,如果将这些模糊的数据交给强化学习模型去学习,只会让模型越学越糊涂。因为连人都无法确定结论,模型更无从得出正确的因果关系。

董善东:“垃圾进,垃圾出”的定律在 AI 时代不仅没有失效,反而因 LLM 对数据规模和质量的高依赖被显著放大。我们在构建 AI Agent 过程中,反复会提及和优化的一个难点是: 需要确保给到 LLM 的 Context 是精确、足够、不给到 LLM 的 context 的逻辑其实也是类似的。

我觉得判断一个可观测数据和对应产品质量好不好,有 3 个可以自问的问题:人能很容易使用数据吗?代码或算法容易分析数据吗?平台内各处容易联动跳转吗?治理的核心目标,是让数据既能满足人的使用需求,也能适配算法、AI 分析,同时支持跨平台联动。

让“人容易使用数据”。首先,需要统一数据语义:给不同来源的可观测数据(如日志、监控指标、链路追踪)定义统一标签,比如“error_code:500”在日志和告警中保持一致释义,避免人在跨场景使用时需反复核对。其次,简化数据获取路径:搭建统一的数据查询入口,支持非技术人员通过关键词(如“支付系统 + 昨日 18 点故障”)快速调取所需数据,无需掌握复杂的 SQL 语法或跨平台切换。

让 AI 更容易读懂数据、避免冲突。首先,推动非结构化数据结构化:将日志、告警描述等非结构化数据转化为键值对(Key-Value)或表格格式,比如将“服务器 A 内存使用率 95%”拆解为“server: A, metric: memory_usage, value: 95%”,方便算法直接提取特征。其次,建立数据质量校验规则:在数据采集阶段嵌入自动化校验逻辑,比如监控指标的取值范围:CPU 使用率不可能超过 100%、时间戳的统一性:避免跨时区数据混乱,单位的统一。 从源头过滤“异常数据”,减少 AI 冲突的理解和计算成本。

让“平台内各处容易联动跳转”, 进一步验证“数据链路”与“场景闭环”。首先,构建数据关联关系:让不同类型的可观测数据形成“联动链路”,比如点击某条告警信息,可直接跳转至对应的日志详情页、相关链路追踪图,无需人工复制 ID 跨平台查询。这些产品上能够形成的联动, 也往往很好的体验出数据层面的关联关系。 这种关联关系的构建, 相信也更容易让 AI 能拿到全面的 Context。 其次,统一数据存储与权限:采用兼容多类型数据的存储架构,同时建立统一的权限体系,避免因平台间权限隔离导致“数据孤岛”。

王亚普:别说大模型了,就算是传统监控系统,一旦数据出错,在公司内部都可能引发很大争议。比如误报或漏报,都会造成严重后果。进入 AI 时代后,这种风险被放大了。错误的数据不再只是导致错误的报表,而可能引发错误的决策,甚至错误的执行,后果会更加严重。

在过去的传统监控中,系统对“垃圾数据”尚有一定容忍度:命名不规范、格式混乱、日志难懂,人还能凭经验进行补全或纠错。但大模型做不到这一点。它若理解错误,可能会得出离谱的根因分析结论。由此可见,大模型对数据语义的理解极度依赖数据质量,垃圾数据会直接破坏其分析能力。

因此,标准化工作变得尤为重要。就像 OpenTelemetry 的出现,使得在 AI 时代快速落地链路追踪、指标监控等变得可能。在大模型语义理解层面,标准化同样关键。要实现深层次的可观测性,必须依赖数据之间的关联和可理解的数据建模。这是一项极具挑战的工作,需要公司层面的战略决心与资源投入。当前行业内尚无统一标准,阿里内部的 UModel 是少数尝试之一,但整体上各公司场景差异大,很难实现完全统一。

此外,我认为在大模型时代,语义标注的完整性甚至比格式统一更为重要。我们在开发 agent 工具时发现,一些字段很难在不同系统间统一,与其强行统一,不如在语义上建立清晰的标注和定义,让模型真正理解原始数据的含义。因此,数据治理和标准化是长期工程,也是可观测性系统在 AI 时代能否发挥价值的前提。高质量的数据,是一切智能分析的基础。

张城:我在 2021 年参与 UModel 项目时,大模型还没像后来那样火。当时推动这件事的初衷,并不是为了适配大模型,而是为了更好地管理多系统的观测数据。这个需求本身一直存在,只不过在大模型时代被放大了。当我们希望模型能理解数据、理解系统语义时,这种建模和标准化的重要性就被进一步凸显。在建设可观测性系统时,一定要关注数据质量和语义化。只有保证了数据的语义清晰和一致性,大模型才能真正读懂并发挥作用。

观众:AI 推理甚至是训练过程的这种可观测,只能是研发大模型的团队才能做吗?

王亚普:这并没有一个确定的答案,因为不同公司的人才结构和资源分配差异很大。以我们小红书为例,我们更倾向于把资源用在刀刃上,让每个人专注在自己最擅长的领域。不过我更想分享的不是这一点,而是我们在可观测领域里做的一些尝试和突破。以我们团队的经历为例,实际情况并不像想象中那么简单。

我们团队里负责训练和推理的同学,他们的专业能力主要集中在这一块。在初期沟通时,双方团队几乎是“鸡同鸭讲”的状态,信息挖掘成了难题。所以,很难要求一个做训练推理的人对可观测性或系统稳定性有深入理解。反过来说,我们做可观测的,也要主动走近他们,学习训练与推理的流程和原理。只有理解这些机制,我们才能提出建设性的意见,与他们进行平等、深入的讨论,从而共同建设更稳定的平台。

观众:AI 时代的专家该怎么样去培养?

张城:AI 时代的变革并不是一夜之间发生的,而是一个循序渐进的过程,这意味着我们都有充足的时间去学习、提升和适应。更重要的是,这并不代表在明年或后年,大多数 SRE 就会被取代。这种情况发生的可能性很低。让 AI agent 或大模型完全取代人,需要模型能真正承担责任,而这在当前阶段几乎做不到。就像自动驾驶行业一样,虽然技术发展迅速,但至今也没能完全取代人类司机。所以大家不必过度焦虑。

第二点,人该如何进步、如何成长为专家?必须在这个领域至少沉淀一万个小时。时间和积累是成为专家的关键。不要急于求成,要脚踏实地、循序渐进。现在的机会在于,学习成本大大降低了。过去我们要查资料、读论文、看技术网站都很费力,而现在借助大模型,这些学习和理解的过程快了数倍。无论是学习新知识还是解决问题,效率都被显著放大。因此,我建议大家要积极利用大模型的各种能力来提升自己,这是一个极好的机会。

观众:一般的企业该怎么样去构建自己的可观测平台去协助运维?

张城:第一条路是借助开源生态。开源社区已经有许多成熟的可观测数据解决方案,如果公司有人力投入,并且有具备一定可观测经验的同学参与,是完全可以自建的。要想进一步做智能化分析,则需要团队对大模型和 Agent 技术有一定理解,这部分可以通过自学获得,毕竟现在还没有哪所大学开设“AI Agent 专业”。

第二条路是使用商业化的平台解决方案。这些平台能帮助企业快速打通数据接入、存储、分析等关键环节,从而节省自建成本,让团队把精力集中在更有价值的产出上,比如为 SRE 团队提供洞察、提升系统稳定性。当然,商业方案会带来额外成本,这是权衡效率与预算的取舍问题。

观众:微调对于通用性不会有损失吗?是否会导致只能处理少量的场景?

李也:Anthropic 最近有一份技术报告我觉得挺有参考价值的,它通过可视化展示了模型在微调前后的差异。结论是:微调通常不会显著削弱模型的通用能力。在相同模型规模下,微调后的模型与原始模型在通用任务上的表现差别不大。

以 Anthropic 的可视化结果为例,微调前后模型掌握的概念和推理深度变化很小,主要的差异体现在表达风格、思考方式以及特定领域知识的增强上。换句话说,“微调”中的“微”字非常准确,它强化的是特定方向的能力,而不会显著损伤模型的通用性。

张城:在 AI 的驱动下,3-5 年后,可观测性的理想图景会是什么样子?我们离真正的“自治运维”还有多远?

王亚普:未来的可观测平台也许会从一个单纯的平台进化为一个“智能生命体”。从我们工程师的角度来看,它可能会帮助我们完成一些智能化的日常巡检。比如,我早上来到公司,打开电脑,看到的是系统自动生成的摘要报告:昨天系统运行平稳,预测某个服务将在下周的某天达到峰值容量,并已生成相应的容量计划。此外,它可能还会自动发现某个服务在某个版本上出现了 5 毫秒的性能劣化,并指出这可能与特定实验变更有关。这样的系统能让我们从被动监测转向具备预测性洞察的工作方式。

第二个设想是交互方式的变化。未来可观测系统的交互方式可能不再是传统的图表和数据界面,而更像是与一个经验丰富的同事进行对话。例如,你可以直接问:“昨天的故障为什么发生?”系统能给出原因分析,并进一步帮你检查是否存在类似风险。这种双向的自然交互让系统真正成为工作伙伴。

至于自治运维的前景,我认为核心在于“二八原则”:AI agent 可以解决 80% 的常规问题,实现从发现、诊断、决策到执行的闭环,而剩下 20% 的复杂问题仍然需要人类介入。三到五年内实现“半自治”的可观测系统是现实且可期的,它能处理大部分日常工作,并在部分成熟场景中实现全自动化。不过,仍面临诸多挑战,包括黑天鹅事件、信任、安全等问题。跨越这些鸿沟仍需时日,但整体方向是明确的,而且我们已经能看到变革在逐步发生。

李也:未来,SRE 的大量工作会被自动化,SRE 的学习和成长曲线也会变得更快。比如,我们不再需要处理重复性很高的运维工作,可以把更多时间用于分析与决策。此外,全球范围内遇到的类似问题,也能被自动识别并提供解决方案。未来的 SRE 可能只需喝杯咖啡,在关键决策节点上确认执行即可。

董善东:理想的可观测图景是:系统能够自动值守告警群。未来,即使是关键告警群,人也无需全天候盯着。尤其是在半夜,这种能力价值更大。夜间若发生告警,AI agent 可以自动处理大部分问题,早上只需查看一份夜间值守报告即可。即使 agent 无法完全处理,也能在通知人之前完成更多分析,把相关数据和结论整理好,从而大幅缩短排障时间。

再往远看,AI 的发展可能会重塑整个可观测体系。比如,未来主机侧或端侧的 AI 能实时判断数据的重要性,不必像现在一样每分钟都存一个数据点。如果系统稳定,采样频率可以降至每 5 分钟、10 分钟甚至 30 分钟;而一旦出现异常,采样频率又能自动升高。这种动态采集机制能显著降低存储成本,同时在问题发生时提供足够密集的数据支持。

三到五年内实现“半自治”运维是可行的,部分场景甚至能实现闭环自动化。但要达到完全自治、真正实现所谓“咖啡式运维”,仍有很长的路要走。

简体中文 English