今年最火爆的黑话莫过于 Harness Engineering。
全世界的技术博客都在连篇累牍地向程序员布道:底座模型不重要,套在模型外面的 Harness 才是真正的壁垒。
可就在无数开发者和初创公司疯狂涌入这片“新金矿”、试图通过搭建精妙的 Agent 中间件大赚一笔时,Google AI Studio 负责人 Logan 却往所有人头上浇了一盆冰水:
“每一行外部脚手架,都是对模型无能的妥协。这种红利顶多还有 12 个月。”

大模型终将吞噬一切。
在硅谷,Logan Kilpatrick 可能是少数同时在 OpenAI 和谷歌干过最核心业务的人。2022 年底 ChatGPT 刚爆红时,他是 OpenAI 的首任开发者关系负责人,硬生生把用户从几万人带到了几百万。2024 年,他转投谷歌 DeepMind 负责 Gemini API 和开发者生态,并且在今年年初做了一个挺反常的决定——公开宣布卸下“PM(产品经理)”的头衔,重回“技术成员(MTS)”的身份。
在这种技术重构的趋势面前,谷歌自己也在动手。今年他们宣布将大火的 Gemini 开发者生态和命令行工具彻底并入全新的“反重力(Antigravity)”平台,试图用底座来彻底收口这套 Agent 秩序。
在红杉资本合伙人 Sonya Huang 主持的这次深度访谈中,作为手握 13 个“十亿用户级产品”的大厂主管,Logan 毫无保留地戳破了硅谷各家关于失业、算力、以及大厂内部暗战的真实细节:
模型很快就会把所有的 Harness 吃掉,市面上 90% 的 Agent 中间件公司最多只能活 12 个月。
很多团队觉得做一个漂亮的工具箱、套个壳就是壁垒。但随着模型底座的自我演进,这些外部的脏活累活很快都会被大模型在内部解决。
创业公司唯一的活路是去打垂直深水区,不要试图在通用工具上和大厂死磕。
AI 时代的商业逻辑变了:巨头不再指望用你的在线时长(Eyeball Time)去换广告,而是要直接交付结果。
过去二三十年,互联网公司的本质是想尽办法榨干你的屏幕时间。但在 Agent 时代,AI 帮人类把活都干了,用户在软件里逗留的时间一定会大幅减少。谁能用最短的时间、最少的点击帮用户解决完问题,谁才是赢家。
Gemini 内部有一个被叫做“复仇者联盟”的代码团队,Gemini 3.5 Flash 仅凭后训练(Post-training)就干掉了以前所有的 Pro 模型。
大模型的性能跃升不只靠烧钱做预训练,后训练阶段的剪枝和对齐,正在释放出超乎想象的爆发力。

把所有产品串起来的新主线
主持人:很高兴邀请 Logan 来到节目。你负责 Google AI Studio 和 Gemini API。你的很多时间都在思考并为下一代开发者打造工具。
Logan:是的。
主持人:所以我很期待今天和你聊聊各种话题,从智能体式人工智能,到 AI 编程、世界模型等等。而且现在正好紧接着 Google I/O 大会之后,没有比这更好的时机了。
我们先从智能体式人工智能(Agentic AI)开始。Sundar 在 I/O 开场时把这个时代称为“Gemini 智能体时代”。对 Google 来说,智能体式人工智能意味着什么?
Logan:这是个很好的问题。我觉得,如果你当时有密切关注的话,我们其实在 Gemini 2.0 那会儿就已经稍微提到过其中一些东西,只是我觉得那时候还稍微早了一点。所以我认为现在这个时代,这个 Gemini 3.5 时代,才真正开始变成现实。
我们现在正处在智能体式编程、智能体式产品,以及围绕 Gemini 展开的各种智能体的时代。对我们来说,这一层智能体能力——其实我们也在 I/O 上宣布了——是由 Anti-Gravity 智能体运行框架驱动的。它像是一条新的主线,把 Google 的所有产品串联起来,并逐渐成为这些产品的共同基础。
从历史上看,在 Gemini 之前,其实 Google 那么多产品——也许有五十个——并没有一条真正贯穿它们的主线。Gemini 出现之后,它开始成为这条主线,所有东西现在都在某种程度上使用 Gemini。而现在,这种情况也开始在 Anti-Gravity 上变成现实:随着各类产品重新构建,朝着“原生智能体产品”转型,真正开始代表用户采取行动、帮助用户完成事情,你会看到一条新的主线正在形成。我觉得这件事真的非常有意思。
主持人:不好意思,我确认一下,Anti-Gravity 是那个集成开发环境吗?还是那个别的东西?
Logan:对,Anti-Gravity 包含很多东西。我觉得这本身也是我们的一个机会。它有一个核心的集成开发环境,也有一个如果你愿意的话以智能体为先的网页体验,还有命令行界面,也有软件开发工具包。
但我其实觉得——虽然我不确定我们有没有这样明确表述过——它本质上真的是一整套生态系统,是我们打造出来的一组东西,目的是在开发者所处的任何场景中都能接住他们。比如你完全可以通过 Gemini API 来使用它,如果你希望有一个托管式智能体,而不想自己处理基础设施层面的工作。
更有意思的是,它不只是 Anti-Gravity 这套生态系统本身。实际上,它也在驱动 Google 其他产品。Anti-Gravity 将会驱动搜索中的大量智能体能力、Gemini 应用中的智能体能力,以及云端、AI Studio 等多个场景,这真的非常令人兴奋。
主持人:我明白了。也就是说,以前是 Gemini API——也就是语言模型——作为一条主线,把人工智能嵌入到每一个 Google 产品里。
Logan:对。
主持人:而现在不只是 API,而是这个编程运行框架。
Logan:没错。
主持人:这个框架会被用在这些产品里,因此真正推动更多智能体属性的,是编程智能体本身。
Logan:对。
主持人:这样理解公平吗?
Logan:这个描述是公平的。我觉得如果说得更泛一点,它其实就是智能体运行框架。编程可以看作这个智能体运行框架的一个专门化用例。它当然很强大,但现实是,编程已经被证明是一个通用型智能体运行框架,同时它本身又非常适合编程。
主持人:那“智能体运行框架”和“编程运行框架”是同义词吗?
Logan:这里面肯定有细微差别。我觉得通过专门化、针对某类任务做优化,确实可以榨出更多性能。你也能看到这一点:比如 AI Studio 使用的智能体运行框架,从技术上讲就稍微针对“氛围式编程”这个用例做了定制;Gemini 应用所使用的智能体运行框架,也稍微针对那种面向消费者、全天候在线的智能体做了定制。
所以我觉得,你会有一个基础运行框架,其中大概有 80% 的内容是相同的,然后你再根据编程或者其他具体用例做专门化。
最大化结果,不是最大化眼球
主持人:很有意思。你怎么看对现有业务的蚕食,尤其是现在你们在更积极地推进智能体能力?因为我能理解,如果你做的只是搜索或摘要,可能就没有那么强的“被蚕食”的担忧;但如果它真的在替我处理邮件、替我回复,那我还会不会自己去看邮箱?这样一来,我可以想象你们产品上的人类停留时长、眼球时间,可能反而会因为智能体能力更强而减少。这种理解公平吗?你怎么看这种“蚕食”?
Logan:这很有意思。我有一个观察是,在一开始——我觉得 Sundar 也一直很好地讲清了这一点——在当前这一轮人工智能时代刚开始时,大家都以为 AI 能替你回答问题这件事,会对搜索是个负和结果。
但实际上,最后发生的是,它对搜索极其正和。人们搜索得更多了,做的事情也更多了。
主持人:而且智能体也在搜索。
Logan:对,智能体也在搜索。实际上,这又是一个同时诞生出来的新市场:一边是智能体做得越来越多,一边是人类也在搜索得更多。所以我觉得,当然,世界上的人类时间总量是有限的,但从我目前对很多事情演变方式的早期感受来看,这看起来非常像是一个正和结果——无论从生态价值创造,还是从整体影响来看都是如此。
至于人类行为层面最终会如何发展,我觉得未来一两年大致会比较清楚;但三到五年之后,当技术进一步提升、产品形态也可能和今天不太一样的时候,就没那么清楚了。
不过归根结底,我认为这正是产品成功的定义。我们经常和 Demis 聊很多,他一直强调,打造技术的目的,就是让它能替你去做事情。Google 的成功,大概不会表现为“尽可能让用户多盯着我们的产品看”;而会表现为“尽可能帮助用户实现结果,让他们完成自己真正想做的事,然后去生活,去做他们想做的事情”。所以我觉得,你会看到我们更倾向于走“最大化用户结果”的路,而不是“最大化眼球停留”。
主持人:我脑子里一直有个词,叫“智能体增长”。我最近私下里大量使用编程智能体,我会直接让智能体替我做所有基础设施方面的选择。我会说,我不在乎用什么数据库,你来决定就好。
Logan:对。
主持人:所以我才会问这个问题。这个现象今天在编程里已经存在了。我猜未来可能在很多事情上都会普遍发生,比如购物。那你觉得这会怎样改变广告的运作方式、价值捕获的方式,以及那些聚合平台的地位?我感觉这是个非常相似的趋势。
Logan:这不完全准确,但这些事情之间很多时候其实只是彼此的代理变量。比如搜索引擎优化的运作方式,我觉得和现在所谓的“生成式引擎优化”——我都差点忘了那个词,可能叫 GEO 吧——之类的机制,是直接相关的。
所以确实会感觉这些东西之间高度相关。我的猜测是,它最终看起来不会像我们现在以为的那样,是一种特别剧烈的断裂式转变。因为这些事情往往是层层叠加、相互复合的。
主持人:如果用“爬、走、跑”来给智能体化程度打分,你觉得 Google 整套产品现在处在什么阶段?
Logan:这是个很棒的问题。现在肯定还是“爬”的阶段。我觉得其中一部分原因在于 Google 天生就有很强的产品张力:你想想看,我们有十几款、总用户量达到百亿级的产品。
所以我其实觉得,我们有一些更偏实验室性质的体验,可能已经更接近“走”甚至“跑”。但如果说今天大多数产品体验,我认为肯定还是更接近“爬”。
我觉得这也和我们作为产品守护者所承担的责任有关。毕竟这些产品是很多人在使用的。我不认为广大的长尾用户已经准备好让 AI 自动运行、替他们做完一切。他们大概还是想自己握着方向盘,只是在谨慎地迈出第一步。
而我觉得 Google 团队,尤其是搜索团队,也许是这方面最典型的例子。他们确实有很大责任,要以一种能把用户带上的方式来推进,而不是一下子彻底改变人们和互联网、和产品之间的交互方式。
主持人:你觉得哪些产品最接近“走”这个阶段?
Logan:这是个好问题。我觉得 Gemini 应用肯定是最接近“走”的。比如 Spark 这种场景里,一个 24 小时、7 天全天候在线的智能体,真的去替你执行一大堆操作,我觉得这是最前沿的用例之一。
我还觉得 Anti-Gravity 也是。你可能会有自主编程智能体,替你重建操作系统,代表你跑数十亿个词元,替你花几千美元。我觉得这些都属于更前沿的范畴。实际上,这些东西也出现在 GDM 里,多少和那个方向有关。
所以我觉得,GDM 采取的是一种非常前沿的视角;而 Google 的其他产品,则更像是在渐进式地往那里走。这对我来说也是合理的。
主持人:你觉得 Google 最终会有一两个、两三个使用 AI 的产品界面,还是会有成千上万个?
Logan:很难说。我觉得这其实深深植根于人类如何消费产品的方式。我的感觉是,人类其实挺喜欢这种分隔感、这种专门化的产品设计。
如果最后出现一个“什么都能替你做”的产品,我觉得使用那种产品本身会带来更多额外负担。这大概会是默认状态。当然,也许会有人拼出一种真正神奇的体验,让事情不是这样;但我觉得对广大的用户来说,最终往往还是得投入更多心智负担和时间,去让一个通用型产品做成自己真正想做的事。相比之下,有一种简单感是很好的:我点开日历应用,它就只给我看日历,我不用处理别的东西。
这也是我对幻灯片为什么能存在这么久的一个“热观点”:人们就是希望某一块信息准确地待在同一个位置上。我们作为人类,其实已经非常习惯这种方式了。相比之下,生成式界面这个概念对我来说听起来很酷,但问题是,我们的大脑真的适合那样吗?那会不会只是给我们增加更多认知负担?
主持人:某些情况下,确实会这样。
Logan:对,某些情况下肯定如此。我觉得还是需要有人——毕竟世界上有很多非常聪明的人——找到一种让这种体验变得更自然的方式。
但就我现在的感觉而言,我可能不会认为最后会变成一万个产品那么极端。我猜更可能是:会出现更多不同的产品,分别去满足不同的需求。
或者换个角度说,我也不知道这对 Google 来说会是什么样子。但对整个生态系统来说,我认为会是“更多产品”。至于 Google 最终在战略上会怎么决定:我们的用户是愿意面对我们有一万个产品,还是只有三个产品会更好?这会变成一个战略选择。
只有代码智能体真正跑起来了吗?
主持人:这完全说得通。我和企业客户聊的时候,他们常说:“大家都在谈智能体式人工智能,但我们唯一真正看到智能体有效运作的地方,就是编程智能体。”你同意这个看法吗?
Logan:我觉得这取决于你对“有效运作”的门槛怎么定义,而这里面正好有很多细微差别。如果你真的想把非常复杂的任务卸载给模型,而这些任务所在的领域里,模型其实还没有跨过质量门槛,那我觉得这个说法当然是成立的:它就是还解决不了问题。
但有一件事我一直很想测量。比如 OpenRouter 就会统计整体的词元消耗量,所以你能看到一种趋势:世界上的“智能用量”相比一年前增加了多少。
而与此平行,我其实更想测的是:平均一个任务、平均一次智能体运行,持续时间到底有多长。我不觉得他们会公布这种数据,但我感觉他们手里应该会有很有意思的数据,其他一些平台 probably 也会有。
因为我确实觉得,你正在看到这种变化:一个新的模型能力上线,或者一个新模型发布之后,那种持续更长时间的任务会突然上升。也许现在这个曲线还很低,但你已经能看到一些早期信号,表明它正在抬头。长时间运行任务正在出现,所有模型实验室也都在说:“我们发布了这个新模型,它能够自主工作三天”之类的话。
这当然是极端情况,但我觉得在实际中,你会看到这种能力正在很快地一点点渗透上来。这真的很有意思。
所以,即便企业今天在编程之外还没有强烈感受到,他们今年也会开始感受到,因为其他那些用例也会变得好得多。
主持人:从 DeepMind 的角度来看,你觉得“长时程智能体”是一个关键绩效指标吗?或者说,它是不是那个最重要的关键绩效指标?
Logan:它当然重要,绝对重要。我觉得对 DeepMind 来说,我们同时在做很多事情,这个之后也可以展开聊。我们有一整套非常庞大的不同押注组合。长时程智能体显然很重要。
另外,具体到编程智能体,它也非常重要。因为如果你拥有一个很强的编程模型,那它显然会成为你业务其他所有部分的加速器。所以,确保我们在这方面做到位,我觉得是非常优先的事情。
主持人:明白了。我想稍微切换一下话题,聊聊编程。
Logan:好。
主持人:我准备问个比较难的问题。我很多做开发的朋友以前长期都在用 Claude。后来 OpenAI 看到了这个情况,宣布进入“红色警报”状态,现在 Codex 也变得非常好了。我会说,我身边的朋友现在大概一半用 Claude,一半用 Codex。但我几乎没怎么听他们用 Gemini,这一直让我挺困惑的。到底发生了什么?
Logan:这是个很好的问题。我还想给这个故事补充一部分背景,而这会让它更有意思。去年 12 月的时候,外界叙事其实是 Google 赢了。Gemini 3 发布之后,我觉得那次模型能力提升是非常深刻的,外界很多声音都在说 Google 实现了一次巨大跃迁,把这件事做成了。
而有意思的是,作为生态系统中的一员,你会看到叙事并不是说瞬间转变了,而是下一阵风很快就吹到了“智能体式编程”这件事上。那就是假期期间一路延续到一月、再往后的那股浪潮。其实距离现在并没有很久。
主持人:对,但感觉从那之后一直都处于曲速状态。
Logan:当然,绝对是这样。但这也是一个元层面的提醒:事情变化得可以有多快。
我觉得你的观察并不是不合理。对我们来说,幕后真正发生的事,是我们正在尽可能快地推进编程这个方向的前沿。所以我觉得 Anti-Gravity 实际上是这里面非常重要的一部分。
一个重要教训是:如果你自己没有一个真的在做这件事的产品,那你其实很难为开发者这种长时程、复杂工作流场景做出一个优秀的编程模型。所以我觉得 Google 意识到了这一点。这也是为什么会有 Windsurf 那笔交易,为什么那些人会加入我们,并最终打造出 Anti-Gravity。
实际上,我们内部也一直在使用它。Sundar 在 I/O 上还展示过 Google 内部词元消耗增长的图表。所以你确实需要让那个飞轮转起来。而更宏观地说,飞轮现在已经在转了,只是模型进步确实需要时间。
但我非常有信心。我们现在负责代码方向的那批人,我在内部把他们形容成“人工智能复仇者联盟”。真的是 Google 里一些最顶尖的人在推动这块巨石上山,大家都非常认真地在做这件事,想尽办法往前推。
我觉得 3.5 Flash——即便外界对价格之类还有一些讨论——已经是迈向这些能力真正落地的重要一步,也说明这些投入开始结出成果。它是一个 Flash模型,但从编程角度看,它比我们之前发布过的任何 Pro 模型都更强。而之前那些 Pro 模型其实已经非常好了。
这里还有另一条线索,就是大家总会忘记“预训练窗口”这件事。我觉得很有意思的是,也许应该有人在网上专门跟踪这个。也就是说,大规模训练跑次、可用的算力集群这些因素,会如何影响进展。
这些“大跑次”本身就是这件事里非常有意思的一条主线。所以从外部看,可能会觉得“哦,你们是不是在某种意义上很落后”,但其实你完全错过了上下文:不知道大规模训练什么时候启动,不知道大规模预训练什么时候进行。
而 DeepMind 在预训练上历来都是非常强的,这显然是我们的巨大优势之一。我们有世界上最好的一批人。所以我也很期待看到这些努力真正结出果实。
另外也很酷的一点是,3.5 Flash 的提升全部都来自后训练。这非常了不起。团队仅靠后训练就做出了这种级别的进步,甚至超过了之前的 Pro 模型,这是对他们工作的巨大证明,真的很棒。
主持人:你们内部对“自己先用起来”这件事有多执着?比如说,DeepMind 的人现在还被允许用其他模型吗?还是说,大家都必须用 Gemini 这套运行框架,我们得把它打磨到极致?
Logan:我觉得使用其他模型其实非常健康,因为如果不这么做,有时候你真的很难把整个生态里到底发生了什么看明白。所以我自己会用所有模型,也会用所有产品。我觉得 DeepMind 其他很多人也是一样的。
不过你当然还是得用 Gemini 模型。这对反馈飞轮非常有帮助。而且模型之所以会变得更好,正是因为 DeepMind 和更广泛的 Google 内部,有超过十万名非常优秀的工程师在使用这些模型、不断给出反馈。
这本来就应该是 Google 的竞争优势,因为我们拥有这种规模的工程资源、这种人才深度,还能跑 A/B 测试、做线上实验等等。所以我觉得,所有模型都要用,但对绝大多数人来说,Gemini 仍然是日常主力,这很好。
主持人:你是否相信这样一种叙事:一旦你拥有足够好的智能体式编程模型,它就会加速研究进展的速度,并且形成一种自我强化的循环,也就是一种“软起飞”?听起来这似乎显而易见是对的,但也可能是我自己喝了太多迷魂汤。你现在已经看到这种迹象了吗?
Logan:我觉得你肯定能看到一些迹象。只是那些最早期、最明显的迹象,更多还是体现在产品层面,而不是模型层面。
我觉得这里面的一部分背景是,这种更大规模训练运行所需要的资源投入真的非常大。所以你当然还是需要有一个人坐在驾驶位上来做决策,因为你不可能随便就动用一万颗张量处理器去启动一个训练任务,结果那个任务其实根本没太大意义。
但从产品角度看,你绝对已经能看到这种变化。比如我们团队现在就有这种感受:我们用 Anti-Gravity 做出了移动应用,而且发布到全世界的速度,可能比 Google 历史上任何一个团队做移动应用都更快。Josh 的团队做 Gemini 的 macOS 应用时也是如此,他们端到端交付一个 Mac 应用的速度,比 Google 历史上任何一个团队都更快。
而这一切就是因为智能体式编程。所以从产品角度看,这很棒。
代码已经像一种狭义的超级智能
主持人:你以前说过,如果有一个系统能够用代码构建任何东西,人类在同一层级上就无法竞争,那就是一种“狭义超级智能”。你觉得我们已经到那个点了吗?
Logan:很有意思。我觉得“狭义超级智能”这个例子本身就很值得观察。因为在编程上,它现在确实已经有那种感觉了:编程能力实在是太强,以至于它确实有点像一种狭义超级智能。
当然,我也不确定具体怎么量化这件事,细节会影响判断。但我觉得重要的是,就像你前面说的,它在代码上确实工作得非常好。
如果它还能把其他很多事情也做得同样好,那当然很好;但仅仅是“它能把代码做好”这一点,本身就已经产生了极大的影响。所以我一直花很多时间,让这个事实慢慢沉淀到我心里。因为我觉得,打造通用人工智能当然非常重要,也非常有意思;但如果“打造通用人工智能”这个叙事反而掩盖了今天这项技术在现实中的能力,我觉得这其实是一种不太好的取舍。
所以我一直试图同时把两件事都放在脑子里:一方面,我们需要打造通用型技术;另一方面,仅仅拥有这样一个擅长代码的系统,本身就已经极其有影响力。而且我觉得,它并没有削弱人类开发者的价值。它更像是对人类开发者的加速器。
以我自己作为开发者的感受来说,我觉得我在这个世界上拥有了更多行动能力。我觉得自己可以去解决更有野心的问题。以前我脑子里会有一些点子,但总觉得稍微有点超出能力范围,只能说一句“要是能做出来就好了”。而现在我遇到的是相反的问题:我脑子里冒出一个点子时,会想“我大概还能把这个做得更有野心”。这实际上会额外带来一层责任感,或者说一种负担。因为我会觉得,我不能只做一个最小可行产品了,我得再往前走十步,因为技术已经允许我这么做。
而重新校准自己的野心水平,这也是我花了很多时间在思考的事。我觉得这种情况也会出现在其他那些“垂直领域超级智能”的场景里,会很有意思。
感觉像是,在我们真正“解决”通用智能之前,会先得到很多这样的垂直领域超级智能。几乎像是一种参差不齐的、锯齿状的超级智能。我觉得最后我们得到的会更像那样。
主持人:你觉得下一个会达到超级智能水平的垂直领域是什么?
Logan:这是个好问题。最近我大概花了太多时间在想编程了,所以我得先停一下,想想其他领域。
我觉得其中一部分取决于哪些事情更容易验证。显然,那些可验证性更强的领域,进展会更快。所以像数学、金融,实际上科学也可能会是一个非常有意思的领域。像这些多少有一定可验证性的领域,真的有可能会很快起飞,这会很酷。
我还觉得,在关于“人工智能会如何影响世界”的更大叙事里,有一点很重要:从事情先后发生的顺序来看,你其实会希望最先跑出来的是那些真正积极、有价值、对世界有重大正面影响的东西。这样人们才能尽早理解这项技术究竟可能带来怎样的积极作用。
所以我觉得,科学可能会是一个非常有意思的方向。
主持人:是啊,现在数学证明之类的事情也很多。虽然我不是数学家,所以很多内容对我来说有点超纲。不过我前几天看到一条很棒的推文:“为什么 Erdős 会有那么多问题?”
Logan:对,这个梗很好。我喜欢。这个真的适合印在 T 恤上,太有意思了。
主持人:说到推特,我在这次访谈前翻了你的推特,所以我要当面读一条你发过的内容。推特的好处就是,你所有的预测都有公开记录。
Logan:我得赶紧打开那个自动删推功能之类的东西了。
主持人:去年十月你发过一条:“到 2025 年底,每个人都能用氛围式编程做出电子游戏。”现在看来,这会成真吗?
Logan:感觉已经很接近了。当然,我说的不是 3A 大作,你还不能现在就做出下一代《使命召唤》或者《侠盗猎车手》。但我觉得这件事已经比以往任何时候都更接近了。
而关于电子游戏,其实有趣的一点在于,你最终需要连很多别的东西也一起搭出来,比如模型。我们刚才在镜头外也聊过,Three.js 就是个很好的例子。Three.js 让很多以前做不到的事情变得可能,但它仍然有很多毛边和问题,而这些并不是一个编程智能体本身就能解决的。
所以你还需要像精灵图生成这样的能力,而模型在原生状态下又并不太擅长这些东西。因此,你需要一层编排机制和工具链,才能把这一切真正串起来。还有很多类似的事情,对于游戏体验来说都是核心部分,它们需要很高的可靠性。
所以我觉得,这件事看起来已经触手可及了,但实际上仍然需要大量产品脚手架层面的工作,才能创造出那种可复用、可反复游玩、具备足够深度的体验。而且这里面还需要一点品味。
主持人:你有没有看到很多人在 AI Studio 和你们其他开发者平台里做游戏?
Logan:有。其实我当时发那条推文,就是因为我们看了早期数据。当时在 AI Studio 里,好像有大约 20% 的应用都是游戏,也就是人们在尝试做游戏。
主持人:那是最受欢迎的类别吗?
Logan:现在已经不是最受欢迎的类别了。因为整个生态和用户群体后来发生了变化。但游戏仍然非常多。
主持人:现在最受欢迎的类别是什么?
Logan:我记得大概有 20% 是金融相关的东西。
主持人:20%?大家这么喜欢盯着自己的钱看?
Logan:我觉得更准确地说,很多其实和加密货币有关。人们在金融领域做很多东西,也有很多个人效率相关的工具,还有很多生成式媒体相关的内容。毕竟 Google 整套生成式媒体能力非常强,团队做得非常好。
但我也觉得 GDM 对游戏有一种天然偏爱。很明显,Demis 非常在乎游戏,而且他最初之所以开始做人工智能,某种程度上也是因为游戏。所以我觉得我们还会在这方面做一些很有意思的尝试。
另外,我们团队在 Kaggle 那边——也就是我们在 GDM 里做很多人工智能基准测试的那部分——会和 GDM 一起做一个叫 Game Arena 的东西,用游戏作为通向通用人工智能进展的代理指标来进行测试。这也和 GDM 的历史有非常深的联系。
主持人:那你觉得,我们距离这样一个场景还有多远:街上随便一个普通人,只要有个好点子,就能用氛围式编程做出一个真的很好玩、可游玩的游戏?
Logan:我想说,就是今年。真的。我觉得模型能力已经让这件事变得可能了。
而我在产品侧之所以开始兴奋,正是因为——我们刚刚在镜头外也聊到这个生态里的创业公司——这件事已经是可能的了。问题看起来并不在于模型质量还有明显缺口,而在于是否有人真正懂得打造一个优秀游戏需要什么,并以正确的方式把脚手架搭起来,让这件事变成现实。
我觉得已经有人在这么做了。所以其中一部分问题其实是“可发现性”和“认知度”的问题:很多人甚至都不知道自己其实已经能做到这件事。另一部分则是,某些特定类别的模型能力也许还差那么一点点,我们距离跨过那道鸿沟,也许只差几周或者几个月;一旦跨过去,这件事对大多数人来说就会真正可用了。
世界模型的边界正在变模糊
主持人:这正好引出我接下来想问你的“世界模型”。你觉得,用氛围式编程做电子游戏,更可能会是“游戏引擎 + 编程智能体”的路径,还是更可能是“世界模型”的路径?
Logan:我觉得最终会发生的,是“世界模型”这个定义本身会变得模糊——我们待会儿可以结合 Omni 来聊这一点。
我认为,编程智能体最终看起来也会像某种世界模型式系统。但你如果想让世界模型真正对现实任务有用,你实际上还是需要脚手架。所以这里又有很多很有意思的创业公司,正在研究:要怎样给世界模型搭脚手架,才能把它们从那种天然非常开放的空间里,转化成一种具体、可落地、能在重复场景中使用的东西。
也许会有人真的找到一套适合世界模型做游戏的脚手架。但就世界模型当前的天然属性来看,我觉得它们并不太适合游戏。至少以现阶段的形式是这样。
不过它们的进展也非常惊人。所以谁知道呢,也许再过两年,那个版本就可以了。但至少从短期看,我认为“编程智能体 + 某种游戏引擎”这条路,会在游戏角度带来更多真正可用的成果。
主持人:这说得通。你刚才说“世界模型”的定义已经变模糊了。我们能拆开讲讲吗?
Logan:可以。我觉得 Omni 就是一个例子。你知道,我们在 I/O 上发布了它。它可以接收任意输入,生成任意输出。
我觉得 Demis 把它向世界介绍成一种世界模型,其实是很合理的,因为它对世界的理解程度已经非常高了。从技术上讲,它和我们以前做世界模型的方式还是不太一样——不过我并不是架构专家,没法精确解读内部所有实现细节——但从架构角度看,它确实和过去不同。
而我觉得这反而是好事,因为它似乎更接近某些真正可扩展的方向。过去的世界模型一直有个问题,就是扩展性非常差,运行传统的在线世界模型成本极其高昂。
主持人:对,比如 Genie 这类东西。
Logan:对。
主持人:所以如果把传统世界模型理解成某种“动作条件视频模型”,那么现在我们说“世界模型”时,实际上更像是在说一个“对世界有某种理解的模型”,而不再严格指那个技术意义上的动作条件视频模型。
Logan:对。不过有意思的是,它不仅理解世界,而且它还有那种非常强的生成能力。这就是我觉得界线开始变模糊的地方。它虽然现在还不是实时的,但它可以完成很多你会用传统世界模型去描述的那些用例,或者说,能生成出很多和那类世界模型在视觉上同样能生成出来的东西。
这一点对我来说最有意思。所以我确实觉得,“世界模型”和“视频模型”这条线之后会改变,会朝着一种过去不那么显然的方向发展。
主持人:那它在底层是怎么工作的?在你能分享的范围内,它是 Gemini 加视频模型,还是完全不同的东西?
Logan:它是一个单一模型。我觉得这一点最重要。这其实也是最初的目标之一:历史上,如果你想做这些事,你得训练八个不同的模型。
过去的情况是,你有一个文本模型,比如基础版 Gemini;你有音频模型;有 Lyria 这样的音乐模型;有 Nano Banana;有 Veo 视频模型;我们还有一整套音频模型。无论对我们还是对客户来说,如果只用一个模型就能完成这些事,会好得多。
所以它确实是一种新的架构设置,让这件事变得可能。它不是把请求路由到一堆不同模型上——虽然你其实完全可以想象我们以前就用那种方式,做一个“Gemini Omni”式的模型——但这次它是真正意义上的 Omni 模型。
而它现在首先落地的是目前效果最好的用例,也就是为什么目前真正开放出来的是视频编辑能力。从技术上说,它在别的方面也能工作,只是质量还不够完美,也还没有达到最先进水平,所以我们还没有把那些能力发布出来。
另外,这也只是 Omni 的第一轮模型转动,是 Omni Flash 的第一版。所以之后我们还会有能力强得多、威力大得多的版本,这会非常令人期待。
主持人:所以我们其实可以把这个拍摄现场改一改,让它看起来像……
Logan:对,对,对。我就想要这个。我们刚才在镜头外也说过,我们应该把这个用在片头里,因为我觉得这会让所有这些东西一下子更有能力。
我见过一些例子,那种细微到惊人的层次,让我真正意识到:这背后真的是一种世界理解在发挥作用。
有一次我在做演讲,站在台上,旁边是我朋友 Tulsi,她负责模型团队。我不知道你之前有没有邀请过她,她特别厉害。
当时我对观众席里的某个人随口说了一句,让他去改一下视频。结果那个人真的直接拿了现场画面,用 Omni 实时编辑,然后画面里就出现了一只狗走上了舞台。
在那个编辑后的视频版本里,其他嘉宾会稍微低头,看到那只狗,然后轻轻笑一下。而那时我还正在台上高谈阔论一些人工智能相关的废话。
主持人:他们是在笑你的笑话吗?
Logan:不是,不是笑我的笑话。他们是在笑那只走上来的狗。然后那只狗跳到我腿上,我会稍微示意一下,继续说话,一边说一边顺手摸摸它什么的。
而要把所有这些细微的反应都做对,里面真的有太多太多极其微妙的地方了。但模型完全做到了,表现非常出色。这个东西真的非常有意思,我现在还在试着吸收、消化这意味着什么——尤其是它会怎样改变我们制作内容的方式,以及其他很多事情。
不是 AI 替身,而是把原内容放大
主持人:我是最看好生成式媒体的人之一,也一直在想这意味着什么。比如对我们的播客来说,视觉和内容本身一样重要,甚至同等重要。
因为你首先得抓住别人的注意力,对吧?所以,好吧,我很期待去玩 Omni。
Logan:我也很期待。而且我觉得,作为一个做内容的人,你大概也会有类似感受。因为一直以来,就我个人而言,我其实非常坚持:我不会用 AI 来生成我自己产出的内容。那些都是我自己的文字,是我自己的声音,是我自己的形象和照片出现在那里。我就是觉得,这里面有非常多真正有价值的东西,也有真实感。所以我宁愿那是我自己,而不是一个 AI 版的我。
而我特别喜欢 Omni 的一点在于,它不是在改变“我”。它改变的是其他那些部分,而那些并不是“我”。比如我们周围的布景、咖啡桌,这些都不是我选的。所以我们的语言可以保持原样,而你可以去改变这些不那么私人、不那么属于人的部分,让它们变得更有意思。我觉得这真的非常非常酷。
这也更像是我希望生成式媒体成为的样子:不是一堆 AI 虚拟化身。
主持人:对,不是那种“水果岛”视频。
Logan:对,真的。它应该是原始内容,是那个人本人,那种“人的存在感”还在,只是被放大、被增强了。
主持人:非常有意思。好,我已经迫不及待想试试了。
Logan:对,我们录完之后就该马上发几个提示词试试,真的。
主持人:不过我其实也不讨厌那些水果视频。我很乐意生活在一个两种内容都存在的世界里。
主持人:说到编程这边,你们在 AI Studio 里上线了让人们用氛围式编程做 Android 应用的能力。
Logan:对,对。
主持人:我很想听听目前进展如何,以及你们打算把这件事带到什么方向。
Logan:这件事非常令人兴奋。我觉得对 AI Studio 来说,有一件很重要的战略性事情——而且这其实来自很多生态反馈,也来自开发者和其他人的反馈——就是 Google 有太多产品了。人们在打造创业公司、把想法变成现实的各种旅程里,会以很多不同方式接触 Google。
所以我们有一个非常核心的原则:怎样把某些能力带进 AI Studio,让你能够接触到 Google 生态中的其他部分,而不用在 Google 的九个不同界面里来回切换。
Android 就是个很好的例子。它不仅符合这个原则,还能让原本根本不会去做 Android 应用的人也能做出来。实际上,我人生中第一个 Android 应用,就是在 AI Studio 里做的。
主持人:很酷。那是什么应用?
Logan:不是加密货币应用,就是一个植物相关的。我那阵子在后院种树。
主持人:哦,一个园艺应用。
Logan:对。所以我当时就是一边试用,一边随手做了个园艺应用。我还没有遇到那个真正让我拍案交绝、一定要做成移动应用的点子,但我会继续想,看看能不能做点什么,然后真的去应用商店里竞争一下。
主持人:你见过有哪种用氛围式编程做出来的应用,已经在应用商店里飞起来了吗?
Logan:这是个好问题。其实很值得做点 analysis。我不知道。我相信它一定在加速应用商店里的很多事情,但我还不知道到底有多少。我个人也还不认识哪个人是靠这种方式直接做成的。
不过我还想补充一个观察。我们今天早上在看数据时,我记得上一次看,数字大槪是:自上周以来,AI Studio 里已经做出了 35 万个 Android 应用。这个数字非常疯狂。
更令人兴奋的是,这 35 万个应用里,很多原本压根就不会有人去做。而且其中很多都是个人用途的。这也是为什么我觉得——也许“生成式界面”这个概念还要更远一点——但“你亲手构建软件来解决自己的个人问题”这件事,现在已经非常真实了,而且人们真的在这么做。这几乎已经成了这些产品最常见的用例之一。
另外,能够解锁手机本地的大量原生能力,我觉得也非常有意思。因为你的很多上下文信息原本散落在不同地方。所以我对这类机会越来越兴奋,而 Android 也感觉正在变成“构建者的平台”。
主持人:一个东西是应用,还是只是网页,这件事还重要吗?毕竟现在网页也已经很强大了。
Logan:对,这一点也非常有意思。网页当然很强大,但操作系统有一些能力是网页根本无法真正解锁的。比如很多原生层面的丰富性,会让整个体验显得更丰富。
我实际上会拿短信体验来想这个问题。对我来说,各大主流操作系统里的短信体验,都比我用过的任何 AI 聊天应用更丰富。如果我能直接在我平时用的短信应用里和 AI 对话,而不是非得跳去另一个应用,我会高兴得多。因为我觉得我们其实也已经被操作系统训练成那样了。
主持人:说得通。接下来我想问“模型吞掉运行框架”或者“模型吞掉脚手架”这件事。你怎么看?
模型会把脚手架吞进去
Logan:我觉得这是真的。我觉得这里面有一部分原因是,我们过去理解的“模型”已经不再只是模型了。
比如两年前,大语言模型刚火起来的时候,所谓“模型”其实真的就只是一组权重而已。它就是一组权重,然后尽可能简单地把词元送进去,再把词元吐出来。
但我觉得,随着一步一步演进,我们现在虽然还叫它“模型”,还叫它 Gemini 3.5、GPT 某某、Claude 某某,但它其实已经不只是权重了。它已经变成了一个围绕权重构建起来、不断扩展蔓延的完整系统。这个系统支撑了很多下一代体验:从智能体式工具调用,到各种托管工具、搜索、代码执行等等。
模型现在会在容器里启动,会带着智能体运行框架等等。所以所谓脚手架,往往总是比那些真正内建到模型里的东西领先一两步。然后接下来会发生的事就是:模型把这层脚手架吞进去,它变成原生模型系统的一部分。
当然,在某些场景下,外部脚手架依然有价值。搜索也许就是一个例子:很多人会用不同的搜索提供商,也有不同类型的搜索需求。所以也许模型可以原生使用搜索,但你依然还会想要一些额外能力。代码执行也是类似的例子。
但现在给我的感觉是,智能体运行框架几乎就是这件事最典型的例子。大家都在说:“我们得去做运行框架,真正的价值就在运行框架里。”但我觉得,也许再过 12 个月,这种说法至少不会以我们今天理解运行框架的方式成立了。模型会把其中很大一部分消化进去,变成模型上游自带的能力。到时候真正的价值点会跑到别处,不再是“自己卷一个运行框架”,因为模型已经能原生做这件事。
主持人:但我原本以为,人们之所以自己做运行框架,是因为如果你用某个模型提供商给的运行框架,你就会被锁定在它那里。很多应用公司想保留灵活性,所以才自己做运行框架。
Logan:对,我觉得这也是脚手架故事的一部分:一开始这也许确实是真的。但随着模型能力提升,这件事会随着时间推移变得越来越不成立。
实际上,如果一个模型连别人的运行框架都用不了,那你就不能说它是一个真正通用的模型。所以这一点其实非常重要。
几周前我和别人聊的时候提到过,我们需要一个类似“运行框架基准”的东西,专门去衡量:不同模型适配各种运行框架的能力到底有多好。我觉得从整个生态的角度来看,这完全是个值得测量的事情。
我也很好奇最后会看到哪些模型表现最好。但我觉得从长期看,你会期望它们最终都能用所有运行框架。除非你真的完全超出了模型分布范围;但那种情况下,即便你用的是自己做的运行框架,你照样还是超出分布范围。所以我不确定那是否真的那么重要。
主持人:有道理。那应用层呢?当模型吞掉运行框架、吞掉周边这些东西时,你怎么看独立公司还有什么生存空间?
Logan:这件事很有意思,因为它同时像是两个互相矛盾的命题都成立了。
一方面,我放眼望去,会觉得现在从未有过这么多机会去构建新东西;另一方面,模型又确实比历史上任何时候都做得更多。
我觉得其中有一条线索是“能力冗余”,这里面有大量真正的机会。还有一条线索是,模型公司追逐的通常是这些非常通用的大问题,而在很多高度垂直的领域里,如果你有该领域的专业知识,就有巨大的价值。你了解客户,了解生态,知道这个行业如何运转,那么即使面对最顶尖的模型实验室,你也可以把他们远远甩开。因为专注就是创业公司的超能力。只要你能专注,你几乎什么都能做成。
如果你去看那些很大的公司,或者同时做很多事的公司,它们其实很难真正专注。这在某些情况下也是有道理的——也许我这是在过度为 Google 的战略辩护——但我们确实有很多产品、很多用户、很多不同事情在同时发生,所以我们不可能把全部精力聚焦在单一领域。作为一家大公司,我们有义务去做很多事。
但创业公司没有这个问题。所以我觉得,24 个月前,我们都在问自己:机会空间是不是在变化?未来会不会出现一种结果,就是创业公司的机会反而变少?
到目前为止,事情的发展似乎并不是那样,这其实非常积极。恰恰相反,机会看起来反而更多了。现在有了编程能力,你和那些拥有庞大既有代码库的大公司之间的差距也被拉近了,因为你可以跑得更快,软件写得更快。
而“智能体”这个原语本身也是一个全新品类,你可以围绕它来构建产品。再回到前面说的风险问题:做这些事本来就伴随着风险,而不同公司的风险偏好不同。如果你愿意在某些领域承担更多风险,你就能赢得那群同样愿意承担风险的用户。
机会真的非常多。
我们都在争谁能把世界变得更好
主持人:太棒了。我很想聊聊 Google DeepMind 的文化。我很好奇,现在待在 GDM 里面是什么感觉?我们在 AI Ascent 上见过 Demis,他特别鼓舞人心。我听说 Sergey 回来了,你们也把 Noam Shazeer 请回来了。你给我讲讲,现在身处 GDM 是什么感觉。
Logan:那种感觉非常不可思议。我确实会努力去把这一切都好好感受一遍,因为这真的是一个值得珍惜的时刻。我尽可能在这种混乱而高速的节奏里抽一点时间出来反思,因为真的有太多太酷的事情在发生。
GDM 的文化很有意思。我大槪有三点观察。
第一,还是回到“专注”这条线。我们同时在做很多事,所以我经常会从“投资组合”的角度思考。我觉得我们的整体项目组合非常强,这点很令人兴奋。但你也会看到某些时刻,另一个实验室、另一家公司会在某个方向上跑到前面,因为我们在那个领域投入得不够,只是没有聚焦到位。
而看到我们如何想办法缩小这些差距,本身也很酷,我非常欣赏。
我自己看过几次关于 Demis 的那部纪录片《The Thinking Game》。你会在里面看到很多关于最初文化的细节,比如他们最早如何组织冲刺、如何工作等等。而这些在今天其实仍然非常相似:就是把一群聪明人聚在一起,然后去解决问题。我很喜欢这一点,也很酷,能成为其中一部分。
第二点,我觉得文化会从领导者身上往下渗透。也许这不是对整个生态最完美的概括,但 Demis 是诺贝尔奖科学家,也是这整件事最早的一代开创者之一。你会在 DeepMind 的文化里感受到这一点。
我觉得 Sam 是那种——也许可以说是世界上最厉害的商业人物之一——而你也能在 OpenAI 的文化和他们做事的方式里看到这种气质。
至于 Dario,我没有那么强烈的判断。但我觉得 Anthropic 是个非常有意思的地方,而从外部观察,他似乎是个很特别的人,多少有点玄学气质,所以你也会觉得,这种气质似乎渗透到了那家公司的基因和文化里。
其他实验室也都很有意思。但我个人非常喜欢这种非常科学的方法论,以及 Demis 看待世界的方式。他做这件事、他们开启这项使命,真的是为了治愈疾病、解决这些真正重大的问题。
而且我总是试图把自己从当下的竞争情绪里抽离出来。因为太容易陷进这种竞赛心态里:谁在软件工程基准上又把分数刷高了一点之类的。太容易忘记,我们之所以做这些,是为了最终去解决人类真正面对的问题。
我在整个硅谷最喜欢的一句名言,大概是:“我们不能让别人把世界变得比我们更好。”这几乎就是当下这一刻的感觉。我们大家现在都在争:到底谁能把世界变得比别人更多一点。你换个角度这样说出来,会觉得这件事有点滑稽。
主持人:Gavin Belson 的那句。
Logan:对,就是 Gavin Belson 那句。我总是在想这句话。我们大家现在都在争:到底谁能把世界变得比别人更多一点。
所以这根本不是零和的。我觉得这也是一种看待世界的方式。
关于 DeepMind 文化的第三点是:我们很像 Google 的“引擎室”。我记得这甚至现在已经是 DeepMind 推特账号的简介了,我特别喜欢。
主持人:你在运营 DeepMind 的推特吗?
Logan:不是,我可不想承担替别人运营账号的责任。那责任太大了。
但它确实有那种感觉。一方面,你有那种根基很深的实验室文化;另一方面,你又有整个 Google 生态里的各种合作伙伴,大家一起协作——从我们刚才提到的 Android,到 Google Cloud,再到 Gmail、Workspace 等等。
所以这是一个很有意思的混合体:一边有很多研究工作在进行,一边又有大量应用层工作在发生,真正去和一些最前沿的客户合作。把 Gemini 部署到十亿用户级产品里,这个问题全世界可能只有两家公司会遇到。而我们有 13 个这样的产品,Google 现在不断在经历这件事。能够近距离看到这件事如何发生,以及为了让它真正可行而产生了哪些创新,这真的非常有意思。我觉得这种体验只有在 Google 里面才能获得,这点非常酷。
主持人:说得真好。你加入之后又常常在推特上发言,他们有没有很头疼?
Logan:这是个好问题。我当然会和公关团队对齐。
我觉得,我在 Google 经历中一个意外的收获,就是营销、公关那群同事真的特别好合作。我知道他们的工作是保护 Google,确保我们讲的是正确的故事,确保别出各种糟糕的问题。所以我对他们有很多感谢,也把他们当作合作伙伴。
但与此同时,能够去尝试讲一个真正能打动开发者、而且又感觉真实的故事,这种体验也非常棒。我并不需要每条推文都去审批之类的,这一点其实反映出一种很积极的文化。
我也一直努力拿捏那个边界,不去辜负我和那些同事之间积累起来的信任和善意。但整体体验真的非常正面。因为归根结底,我觉得 Google 要讲一个“真实”的故事其实很难。毕竟这是家大公司,人很多,意见也很多。
于是 Google 原本那种真正的魔力,经过一层又一层人和流程的稀释之后,你反而会错过那个最美的故事:Google 正在做世界上最有意思的技术,也在帮助我们的用户解决世界上一些最难的问题。
而我能参与讲述这个故事,本身就是一种荣幸。所以这件事真的很有趣,我很享受。
主持人:我很喜欢你在做的事情,也很喜欢 Josh 在做的事情。我觉得你们给——正如你说的——这个时代最重要的问题,带来了一种非常真诚、非常有人味的表达方式。谢谢你。
Logan:谢谢。

