在一些博客危言耸听地宣称人工智能即将取代我们的工作之际,我带着自己的疑问来到奥兰多,想要了解数据领导者们是如何应用人工智能并展现其真正益处的。自2025年底以来,人工智能模型已经发展得非常出色,可以自动完成我们许多工作。编码难题迎刃而解。奇点已至。我们或许已经实现了通用人工智能(AGI)。人工智能模型现在的能力已经超越了人类的理解能力;这种理论认为,人工智能的能力已经远远超出了人类的认知范围。
Gartner分析师Adam Ronthal和Georgia O'Callaghan的主题演讲非常贴切。他们以激流漂流为喻,而事实也的确如此,我们仿佛正被四面八方的激流冲击,时刻感觉船只随时都会倾覆。人工智能能够执行最复杂的任务,却连最基本的、以人为中心的任务都无法理解,这更令人困惑。
紧迫性
我很幸运能在人工智能开始产生影响的这个转折点参加此次峰会。盖洛德棕榈酒店的走廊里弥漫着一种紧迫感。这并非恐慌,而是大家清楚地意识到规则正在实时被改写。令我惊讶的是,竟然有那么多人谈论如何打造个人品牌。参加这个会议十多年了,这还是第一次看到这样的话题被反复提及。
当我读到去年的博客时,它就像一个时间胶囊,记录了当时最紧迫的问题。说实话,那些问题现在听起来有点古怪。在这篇博客中,我捕捉到了2026年初数据从业者的生活精神。那一年,人工智能的普及和持续回报刻不容缓。短短一年,变化竟如此之大!我们仿佛生活在狗年里——曾经的七年周期如今被压缩到了不到一年。
在参加本次活动之前,我最关注的三个话题是:上下文平台、代理和治理。然而,我突然意识到,这三个话题都在推动运营型数据库的复兴。那么,我们就从这里开始吧。
所有人都盯着湖。特工们生活在数据库中。
运营型数据库是支撑每个组织业务运转的核心系统。它们的正常运行时间远比分析型数据库重要得多。然而,在过去几年里,我们却过于关注数据工程管道、Iceberg 格式、湖屋、治理、数据质量、可观测性等等,而忽略了运营型数据库本身。
然而,我看到的大多数智能体应用都侧重于检测异常、生成预测以及自动化依赖于交易数据的流程。没错,这些数据需要与组织的其他企业数据集成,才能驱动更多人工智能驱动的应用场景,这就需要分析数据存储。但智能体的作用在于揭示数据的来源和获取方式。
在深入探讨这个话题之前,我想先澄清一下,代理在数据库中扮演着两种角色。一是代理用于自动化执行类似数据库管理员(DBA)的内部活动,例如优化、监控等。二是代理用于获取数据,以满足实际的业务需求。在本节中,我更关注后一种以业务为 中心的用例。
在传统应用场景中,数据在源头创建一次,然后传输给消费者。但在新环境中,代理会不断创建新的数据、思维链、提示等。这些额外数据会被模型用于推理、规划和行动。出于审计和溯源的考虑,这些数据需要实时存储。这种写入密集型工作负载更适合操作型数据库,而非读取优化的分析型数据存储。写入密集型工作负载会给数据库带来更大的压力。
一个真实案例可以很好地说明这一点。OpenAI最近发布了他们如何利用单个主实例和近 50 个只读副本扩展 PostgreSQL,以支持 8 亿 ChatGPT 用户,而不是迁移到分布式数据库。他们的工作负载主要以读取为主,这也是这种架构能够胜任的原因。但他们也坦言,PostgreSQL 在处理写入压力时会遇到困难,因此他们将写入密集型工作负载迁移到了另一个运营数据库——Azure CosmosDB。
目前的主流模式是文件:CLAUDE.md、AGENTS.md、Markdown 内存文件夹以及提交到 Git 的纯文本上下文文件。这种模式在小规模下运行良好,因为 LLM 对读取路径上混乱、非规范化的表示具有极高的容忍度。毕竟,它们是在整个混乱的互联网上训练的!但是,文件缺乏并发控制。当单个代理按顺序读取 Markdown 文件时,不会出现问题。但当多个代理写入包含上下文摘要、执行跟踪和 RAG 知识库的共享状态时,就会出现任意交错的情况。与 LLM 可以插值规避的模式歧义不同,竞态条件会导致任意错误的结果,而且没有任何先验知识可以作为回退。
运营数据库面临的另一个新压力包括摄取非结构化数据、执行实时嵌入、快速创建向量索引以及实现混合搜索(词汇和语义)。
智能体不仅执行操作任务,还会根据读取的个人数据进行个性化定制。然而,这些“轨迹”数据大多源自用户的行为和偏好,而这些数据也存储在数据库中。在交互过程中,智能体会进一步学习用户的角色和行为。未来,这些智能体可能会根据自身的执行轨迹不断改进,从而产生新的数据形式,这些数据也需要存储和管理。在某种程度上,这些数据库扮演着特征存储的角色——在推理时为模型提供行为信号的存储库——尽管它们最初并非为此目的而设计。
虽然这一切听起来都很美好,但数据存储和检索的成本又该如何衡量呢?数据存储成本可以通过将数据存储在对象存储或 NVMe 驱动器上来解决,但这与检索或推理的成本相比仍然微不足道。运行代理的最大成本之一是通过 GPU 生成推理结果。缓存是降低成本和延迟的一种方法,它将常见的查询和查询路径完全从 GPU 转移出去。操作型数据库现在充当“语义”缓存。其理念是,如果代理提出相同的问题,操作型数据库可以通过避免对 LLM 的过度调用来降低令牌成本和延迟。每个用户的查询结果仍然会不同,并且会从数据库中提供。
除了代理查询数据库之外,现有的操作数据库用户界面也需要进行增强,增加聊天机器人和助手作为前端。当拥有多个代理时,代理的编排将变得至关重要。如果组织使 用多个模型,则需要外部编排器。然而,目前的模型已经足够完善,可以独立完成代理的编排。
人工智能治理对于运营数据库也将变得至关重要,例如检测提示注入和设置防护措施。组织需要建立红队演练流程,以提高代理的可靠性。
下一节将探讨本次会议在治理方面的经验教训。
治理存在范围问题
我听到了很多关于如何“从数据治理过渡到人工智能治理”的讨论。首先,我认为这种说法会造成错误的预期。语义很重要!这种说法让人觉得数据治理和人工智能治理是两个独立的项目。一位与会者试图用“一枚硬币的两面”来解释这种二分法。但问题在于,硬币的每一面都从未见过,也永远不会见到另一面。
我最终确定的术语是“将数据治理提升到人工智能治理”。数据治理是我们构建人工智能工作负载所需特定控制措施的基础。然而,问题在于我们如何界定这些特定控制措施的边界。对组织而言,最大的挑战在于清晰地定义“范围”,然后谨慎地加以落实。
另一个问题是就人工智能治理的定义达成共识。这并非易事,因为我询问了不同的人对这一过程的理解后,我的思路变得混乱不堪。以下是我列出的需要治理的内容清单:
1.模型输入 :如前所述,需要设置防护措施,以确保对人工智能的输入进行监控,并制定相应的策略来确保人工智能的正确使用。这可以检测出诸如提示注入之类的问题。
2.模型输出 :在确定性系统中,控制输入就足够了,因为输出是可预测的。但在人工智能中,输出是概率性的,这意味着相同的输入会根据上下文、模型状态和数据的不同而产生不同的结果。这使得生成后的评估与生成前的防护措施同样重要。组织需要持续的评估流程,并在条件允许的情况下,利用人工或自动化反馈进行强化学习,以便在偏差、幻觉和策略违规问题恶化之前及时发现并解决它们。
3.模型训练 :大多数模型不会共享训练所用的数据集,因此,企业对模型提供商是否使用了任何知识产权 (IP) 几乎没有控制权。早期,许多提供商会在模型性能不佳时提供赔偿,但我最近很少看到这种说法。
4.网络 :MCP 是一个优秀的工具调用协议,但它的广泛应用是一个需要监管的新领域。代理可以使用 A2A 等标准调用其他代理,这些标准也需要监管。
5.数据质量 :在结构化数据中,重复值、缺失值等众所周知的属性就足以说明问题。但在非结构化(且多模态)的世界中,数据质量是主观的,它还包括偏见和有害内容。换句话说,数据质量与上下文密切相关!这正好引出了我们接下 来要讨论的本次大会最热门的话题。
但在结束本节之前,值得注意的是,Gartner 对人工智能治理的重视程度,他们今年将发布全新的人工智能治理魔力象限。说到魔力象限,Gartner 在 2020 年将运营数据库和分析数据库的魔力象限合并为一个云数据库管理系统魔力象限。他们计划在 2026 年将该魔力象限拆分为运营数据库和湖仓数据库。
上下文图:无人能定义的热门概念
正如业内人士所熟知的,Foundation Capital 的《人工智能的万亿美元机遇:上下文图谱》一文在社交媒体上引起了轰动。很快,许多公司就声称正在构建类似的技术。然而,上下文图谱的定义甚至都没有统一的标准。
旧事物以新面貌重现。元数据、本体、分类法、知识图谱和语义学等概念已被反复讨论数十年。如今,上下文概念成为焦点。事实上,Gartner 已宣布 2026 年为上下文元年。
在我参与的活动中探讨的所有议题中,这无疑是最具争议性的。毫无疑问,上下文对于提升逻辑学习模型(LLM)的可靠性至关重要。然而,要将所有上下文信息——无论是书面的还是隐含的——整合到一个逻辑统一的系统中,供LLM进行推理,这似乎是一项艰巨的任务。尤其是在构建语义层和知识图谱的类似尝试并未取得显著成功的情况下。
在结束这个话题之前,有两个问题值得提出。
我并不认为上下文需要作为一个独立的“层”。将其视为独立层会使架构复杂化,并有可能造成新的信息孤岛,从而吸引新一波独立供应商。这正是我们构建现代数据栈时所犯的错误,我们多年来一直在努力理顺这种混乱的架构。在已经支离破碎的数据之上添加一个专门的上下文层,或许能解决一个问题,但同时也会引入另一个问题。
明确术语至关重要。语义是指人类使用定义、指标和/或规则为数据赋予业务意义。上下文则提供情境感知,并在运行时被代理使用,以理解特定业务场景下问题的实际含义。语义和上下文相关但又有所区别。然而,为语义和上下文分别维护单独的存储库似乎是一种架构上的过度设计。更务实的做法是扩展现有的语义基础设施,而不是在其旁边构建并行系统。
这个话题本身就值得写一篇完整的博客文章,所以以后再详细讨论。
人工智能应用案例:寻求真正的投资回报率
我参加此次活动的最大愿望是了解终端用户是否在使用代理,如果使用,他们能否指出任何投资回报率。我的发现可以总结如下:
许多企业告诉我的“代理”实际上只是助理。他们充其量只能算是半自主人员。 不过,我不会因此责怪企业。我们仍处于发展初期,企业能够认真地沿着这条道路前进,本身就值得称赞。
各组织开始看到生产力提高,但当大量工作岗位流失时,他们未必愿意公开宣布商业上的成功。
我看到了许多令人着迷的人工智能应用案例。其中一个越来越成功的人工智能应用案例是语音转文本,例如在呼叫中心。它不仅适用于客户服务,也适用于医疗保健。根据法律规定,医疗保险患者的来电必须记录在老旧的CMS系统中。如果记录不完整,将会受到严厉的处罚。这些来电对个案工作者来说非常繁重,会给他们带来巨大的压力。之后,他们还需要查阅病例和用药史数据库来制定护理计划。
保险公司现在能够利用人工智能技术以95%的准确率转录通话内容,并在接到电话后几分钟内(而非几周)制定护理计划。令我印象深刻的是,各机构不仅关注投资回报率,也同样重视成本控制。他们正在尝试使用本地GPU、云端人工智能服务以及像ElevenLabs这样的模型来优化成本。
随着世界人口老龄化,医疗保健可能是人工智能进步的最大受益者。事实上,在我们步入一个老年人口远超护理人员的世界之际,人工智能的出现可谓恰逢其时。我曾参加过一家保险公司举办的培训,会上我了解到,芝加哥最富裕社区和最贫困社区的预期寿命相差20到30年。
令人不安的部分:分析师关系现在会怎样?
我把这个话题留到最后,是因为它写起来最让人不舒服,因为它质疑了分析师研究的整个领域。
这些数字令人触目惊心。Gartner的股价已从2024年11月的高点下跌了约71%,市值也从450亿美元以上暴跌至约120亿美元。Forrester的营收接近4亿美元,但目前的市值仅为约1.2亿美元,约为营收的0.3倍,这种估值水平通常只有处于结构性衰退期的公司才会达到。
对于我们这些在分析师关系生态系统中工作的人来说,这意味着什么?无论是作为供应商解读研究报告,还是像我这样的独立分析师,亦或是就职于这些公司的分析师?我在此提出几点坦诚的看法。
不可否认,企业预算正在紧缩,人工智能正在对包括我们在内的大多数行业造成冲击。然而,Gartner拥有人工智能无法提供的优势:专有数据、原创分析和社区。想想人工智能对Stack Overflow的影响,以及它对Reddit的影响。问答时代已被人工智能取代,但人类的判断和信任依然存在。
Gartner应该充分利用这一点。它一直努力为分析师们构筑壁垒,但随着市场对判断力、人际关系和信任的重视程度不断提高,这些壁垒正在变成它的劣势。Gartner拥有杰出的人才,而人工智能带来的噪音和混乱恰恰使他们的声音比以往任何时候都更加 宝贵。让分析师更多地面向市场,减少对内容的把关,比目前的做法更具商业价值。Gartner近期业绩中唯一亮点是其会议业务,同比增长近14%,利润率高达51%。这并非偶然,而是用财务数据来诠释社群价值的体现。
独立分析正迎来发展良机,但也面临着自身的压力。人工智能正在压缩独立研究的商品化市场,正如它压缩了机构化市场一样。买家正在寻找更灵活、更专业、也更经济实惠的观点。这既带来了机遇,也带来了真正的挑战。今年,多年来我第一次没有发布年度趋势和预测报告。技术发展日新月异,我根本来不及记录,而且关于同一主题的内容已经太多,再写一篇新的文章也显得缺乏新意。
增强现实(AR)团队都在问我,他们的职业未来会怎样。我的坦诚回答是,这个角色正在分化。如果某个AR分析师的工作主要侧重于后勤和关系维护,缺乏战略深度,那么这个职位就岌岌可危。但是,了解某个分析师即使在撰写技术正面评价时,也可能对供应商的市场策略持怀疑态度,或者了解特定研究流程的内部动态,都至关重要。这类信息的价值只会越来越高,不会降低,因为那些积极参与的供应商会获得更多曝光机会,并展开更有意义的对话。
那些能够在产品路线图会议上脱颖而出,并能清晰阐述“分析师们对这一功能类别的看法以及我们目前在信息呈现方面存在的差距”的增强现实(AR)专业人士,而不是那些仅仅负责安排下一次简报的人。他们还需要了解买家如今如何使用分析师的内容,这与五年前截然不同。买家会将分析师的研究成果与人工智能生成的摘要、同行评议以及播客等社区声音进行综合分析。AR战略必须考虑到所有这些因素。
小结
这五个主题——运营数据库、治理、上下文图、实际投资回报率以及分析本身的未来——并非彼此独立的讨论,而是一体的,只是视角不同。人工智能不仅改变了我们构建的内容,也改变了我们思考的速度、假设失效的速度,以及谁能成为决策领域的专家。
一年前,我带着一份待解决问题的清单离开峰会。今年,我离开时却发现问题比答案更多。但这并非倒退,而是意味着问题变得更棘手、更有趣了。下一个万亿美元级的机遇在于,为人类构建的数据平台如何在人类与智能体协同工作的时代中发展演变。

