大模型一年内就会吞噬 Harness，Google AI Studio负责人：深耕垂直领域才是创业公司唯一生路

来源：36kr 2 小时前

今年最火爆的黑话莫过于 Harness Engineering。

全世界的技术博客都在连篇累牍地向程序员布道：底座模型不重要，套在模型外面的 Harness 才是真正的壁垒。

可就在无数开发者和初创公司疯狂涌入这片“新金矿”、试图通过搭建精妙的 Agent 中间件大赚一笔时，Google AI Studio 负责人 Logan 却往所有人头上浇了一盆冰水：

“每一行外部脚手架，都是对模型无能的妥协。这种红利顶多还有 12 个月。”

大模型终将吞噬一切。

在硅谷，Logan Kilpatrick 可能是少数同时在 OpenAI 和谷歌干过最核心业务的人。2022 年底 ChatGPT 刚爆红时，他是 OpenAI 的首任开发者关系负责人，硬生生把用户从几万人带到了几百万。2024 年，他转投谷歌 DeepMind 负责 Gemini API 和开发者生态，并且在今年年初做了一个挺反常的决定——公开宣布卸下“PM（产品经理）”的头衔，重回“技术成员（MTS）”的身份。

在这种技术重构的趋势面前，谷歌自己也在动手。今年他们宣布将大火的 Gemini 开发者生态和命令行工具彻底并入全新的“反重力（Antigravity）”平台，试图用底座来彻底收口这套 Agent 秩序。

在红杉资本合伙人 Sonya Huang 主持的这次深度访谈中，作为手握 13 个“十亿用户级产品”的大厂主管，Logan 毫无保留地戳破了硅谷各家关于失业、算力、以及大厂内部暗战的真实细节：

模型很快就会把所有的 Harness 吃掉，市面上 90% 的 Agent 中间件公司最多只能活 12 个月。

很多团队觉得做一个漂亮的工具箱、套个壳就是壁垒。但随着模型底座的自我演进，这些外部的脏活累活很快都会被大模型在内部解决。

创业公司唯一的活路是去打垂直深水区，不要试图在通用工具上和大厂死磕。

AI 时代的商业逻辑变了：巨头不再指望用你的在线时长（Eyeball Time）去换广告，而是要直接交付结果。

过去二三十年，互联网公司的本质是想尽办法榨干你的屏幕时间。但在 Agent 时代，AI 帮人类把活都干了，用户在软件里逗留的时间一定会大幅减少。谁能用最短的时间、最少的点击帮用户解决完问题，谁才是赢家。

Gemini 内部有一个被叫做“复仇者联盟”的代码团队，Gemini 3.5 Flash 仅凭后训练（Post-training）就干掉了以前所有的 Pro 模型。

大模型的性能跃升不只靠烧钱做预训练，后训练阶段的剪枝和对齐，正在释放出超乎想象的爆发力。

把所有产品串起来的新主线

主持人：很高兴邀请 Logan 来到节目。你负责 Google AI Studio 和 Gemini API。你的很多时间都在思考并为下一代开发者打造工具。

Logan：是的。

主持人：所以我很期待今天和你聊聊各种话题，从智能体式人工智能，到 AI 编程、世界模型等等。而且现在正好紧接着 Google I/O 大会之后，没有比这更好的时机了。

我们先从智能体式人工智能（Agentic AI）开始。Sundar 在 I/O 开场时把这个时代称为“Gemini 智能体时代”。对 Google 来说，智能体式人工智能意味着什么？

Logan：这是个很好的问题。我觉得，如果你当时有密切关注的话，我们其实在 Gemini 2.0 那会儿就已经稍微提到过其中一些东西，只是我觉得那时候还稍微早了一点。所以我认为现在这个时代，这个 Gemini 3.5 时代，才真正开始变成现实。

我们现在正处在智能体式编程、智能体式产品，以及围绕 Gemini 展开的各种智能体的时代。对我们来说，这一层智能体能力——其实我们也在 I/O 上宣布了——是由 Anti-Gravity 智能体运行框架驱动的。它像是一条新的主线，把 Google 的所有产品串联起来，并逐渐成为这些产品的共同基础。

从历史上看，在 Gemini 之前，其实 Google 那么多产品——也许有五十个——并没有一条真正贯穿它们的主线。Gemini 出现之后，它开始成为这条主线，所有东西现在都在某种程度上使用 Gemini。而现在，这种情况也开始在 Anti-Gravity 上变成现实：随着各类产品重新构建，朝着“原生智能体产品”转型，真正开始代表用户采取行动、帮助用户完成事情，你会看到一条新的主线正在形成。我觉得这件事真的非常有意思。

主持人：不好意思，我确认一下，Anti-Gravity 是那个集成开发环境吗？还是那个别的东西？

Logan：对，Anti-Gravity 包含很多东西。我觉得这本身也是我们的一个机会。它有一个核心的集成开发环境，也有一个如果你愿意的话以智能体为先的网页体验，还有命令行界面，也有软件开发工具包。

但我其实觉得——虽然我不确定我们有没有这样明确表述过——它本质上真的是一整套生态系统，是我们打造出来的一组东西，目的是在开发者所处的任何场景中都能接住他们。比如你完全可以通过 Gemini API 来使用它，如果你希望有一个托管式智能体，而不想自己处理基础设施层面的工作。

更有意思的是，它不只是 Anti-Gravity 这套生态系统本身。实际上，它也在驱动 Google 其他产品。Anti-Gravity 将会驱动搜索中的大量智能体能力、Gemini 应用中的智能体能力，以及云端、AI Studio 等多个场景，这真的非常令人兴奋。

主持人：我明白了。也就是说，以前是 Gemini API——也就是语言模型——作为一条主线，把人工智能嵌入到每一个 Google 产品里。

Logan：对。

主持人：而现在不只是 API，而是这个编程运行框架。

Logan：没错。

主持人：这个框架会被用在这些产品里，因此真正推动更多智能体属性的，是编程智能体本身。

Logan：对。

主持人：这样理解公平吗？

Logan：这个描述是公平的。我觉得如果说得更泛一点，它其实就是智能体运行框架。编程可以看作这个智能体运行框架的一个专门化用例。它当然很强大，但现实是，编程已经被证明是一个通用型智能体运行框架，同时它本身又非常适合编程。

主持人：那“智能体运行框架”和“编程运行框架”是同义词吗？

Logan：这里面肯定有细微差别。我觉得通过专门化、针对某类任务做优化，确实可以榨出更多性能。你也能看到这一点：比如 AI Studio 使用的智能体运行框架，从技术上讲就稍微针对“氛围式编程”这个用例做了定制；Gemini 应用所使用的智能体运行框架，也稍微针对那种面向消费者、全天候在线的智能体做了定制。

所以我觉得，你会有一个基础运行框架，其中大概有 80% 的内容是相同的，然后你再根据编程或者其他具体用例做专门化。

最大化结果，不是最大化眼球

主持人：很有意思。你怎么看对现有业务的蚕食，尤其是现在你们在更积极地推进智能体能力？因为我能理解，如果你做的只是搜索或摘要，可能就没有那么强的“被蚕食”的担忧；但如果它真的在替我处理邮件、替我回复，那我还会不会自己去看邮箱？这样一来，我可以想象你们产品上的人类停留时长、眼球时间，可能反而会因为智能体能力更强而减少。这种理解公平吗？你怎么看这种“蚕食”？

Logan：这很有意思。我有一个观察是，在一开始——我觉得 Sundar 也一直很好地讲清了这一点——在当前这一轮人工智能时代刚开始时，大家都以为 AI 能替你回答问题这件事，会对搜索是个负和结果。

但实际上，最后发生的是，它对搜索极其正和。人们搜索得更多了，做的事情也更多了。

主持人：而且智能体也在搜索。

Logan：对，智能体也在搜索。实际上，这又是一个同时诞生出来的新市场：一边是智能体做得越来越多，一边是人类也在搜索得更多。所以我觉得，当然，世界上的人类时间总量是有限的，但从我目前对很多事情演变方式的早期感受来看，这看起来非常像是一个正和结果——无论从生态价值创造，还是从整体影响来看都是如此。

至于人类行为层面最终会如何发展，我觉得未来一两年大致会比较清楚；但三到五年之后，当技术进一步提升、产品形态也可能和今天不太一样的时候，就没那么清楚了。

不过归根结底，我认为这正是产品成功的定义。我们经常和 Demis 聊很多，他一直强调，打造技术的目的，就是让它能替你去做事情。Google 的成功，大概不会表现为“尽可能让用户多盯着我们的产品看”；而会表现为“尽可能帮助用户实现结果，让他们完成自己真正想做的事，然后去生活，去做他们想做的事情”。所以我觉得，你会看到我们更倾向于走“最大化用户结果”的路，而不是“最大化眼球停留”。

主持人：我脑子里一直有个词，叫“智能体增长”。我最近私下里大量使用编程智能体，我会直接让智能体替我做所有基础设施方面的选择。我会说，我不在乎用什么数据库，你来决定就好。

Logan：对。

主持人：所以我才会问这个问题。这个现象今天在编程里已经存在了。我猜未来可能在很多事情上都会普遍发生，比如购物。那你觉得这会怎样改变广告的运作方式、价值捕获的方式，以及那些聚合平台的地位？我感觉这是个非常相似的趋势。

Logan：这不完全准确，但这些事情之间很多时候其实只是彼此的代理变量。比如搜索引擎优化的运作方式，我觉得和现在所谓的“生成式引擎优化”——我都差点忘了那个词，可能叫 GEO 吧——之类的机制，是直接相关的。

所以确实会感觉这些东西之间高度相关。我的猜测是，它最终看起来不会像我们现在以为的那样，是一种特别剧烈的断裂式转变。因为这些事情往往是层层叠加、相互复合的。

主持人：如果用“爬、走、跑”来给智能体化程度打分，你觉得 Google 整套产品现在处在什么阶段？

Logan：这是个很棒的问题。现在肯定还是“爬”的阶段。我觉得其中一部分原因在于 Google 天生就有很强的产品张力：你想想看，我们有十几款、总用户量达到百亿级的产品。

所以我其实觉得，我们有一些更偏实验室性质的体验，可能已经更接近“走”甚至“跑”。但如果说今天大多数产品体验，我认为肯定还是更接近“爬”。

我觉得这也和我们作为产品守护者所承担的责任有关。毕竟这些产品是很多人在使用的。我不认为广大的长尾用户已经准备好让 AI 自动运行、替他们做完一切。他们大概还是想自己握着方向盘，只是在谨慎地迈出第一步。

而我觉得 Google 团队，尤其是搜索团队，也许是这方面最典型的例子。他们确实有很大责任，要以一种能把用户带上的方式来推进，而不是一下子彻底改变人们和互联网、和产品之间的交互方式。

主持人：你觉得哪些产品最接近“走”这个阶段？

Logan：这是个好问题。我觉得 Gemini 应用肯定是最接近“走”的。比如 Spark 这种场景里，一个 24 小时、7 天全天候在线的智能体，真的去替你执行一大堆操作，我觉得这是最前沿的用例之一。

我还觉得 Anti-Gravity 也是。你可能会有自主编程智能体，替你重建操作系统，代表你跑数十亿个词元，替你花几千美元。我觉得这些都属于更前沿的范畴。实际上，这些东西也出现在 GDM 里，多少和那个方向有关。

所以我觉得，GDM 采取的是一种非常前沿的视角；而 Google 的其他产品，则更像是在渐进式地往那里走。这对我来说也是合理的。

主持人：你觉得 Google 最终会有一两个、两三个使用 AI 的产品界面，还是会有成千上万个？

Logan：很难说。我觉得这其实深深植根于人类如何消费产品的方式。我的感觉是，人类其实挺喜欢这种分隔感、这种专门化的产品设计。

如果最后出现一个“什么都能替你做”的产品，我觉得使用那种产品本身会带来更多额外负担。这大概会是默认状态。当然，也许会有人拼出一种真正神奇的体验，让事情不是这样；但我觉得对广大的用户来说，最终往往还是得投入更多心智负担和时间，去让一个通用型产品做成自己真正想做的事。相比之下，有一种简单感是很好的：我点开日历应用，它就只给我看日历，我不用处理别的东西。

这也是我对幻灯片为什么能存在这么久的一个“热观点”：人们就是希望某一块信息准确地待在同一个位置上。我们作为人类，其实已经非常习惯这种方式了。相比之下，生成式界面这个概念对我来说听起来很酷，但问题是，我们的大脑真的适合那样吗？那会不会只是给我们增加更多认知负担？

主持人：某些情况下，确实会这样。

Logan：对，某些情况下肯定如此。我觉得还是需要有人——毕竟世界上有很多非常聪明的人——找到一种让这种体验变得更自然的方式。

但就我现在的感觉而言，我可能不会认为最后会变成一万个产品那么极端。我猜更可能是：会出现更多不同的产品，分别去满足不同的需求。

或者换个角度说，我也不知道这对 Google 来说会是什么样子。但对整个生态系统来说，我认为会是“更多产品”。至于 Google 最终在战略上会怎么决定：我们的用户是愿意面对我们有一万个产品，还是只有三个产品会更好？这会变成一个战略选择。

只有代码智能体真正跑起来了吗？

主持人：这完全说得通。我和企业客户聊的时候，他们常说：“大家都在谈智能体式人工智能，但我们唯一真正看到智能体有效运作的地方，就是编程智能体。”你同意这个看法吗？

Logan：我觉得这取决于你对“有效运作”的门槛怎么定义，而这里面正好有很多细微差别。如果你真的想把非常复杂的任务卸载给模型，而这些任务所在的领域里，模型其实还没有跨过质量门槛，那我觉得这个说法当然是成立的：它就是还解决不了问题。

但有一件事我一直很想测量。比如 OpenRouter 就会统计整体的词元消耗量，所以你能看到一种趋势：世界上的“智能用量”相比一年前增加了多少。

而与此平行，我其实更想测的是：平均一个任务、平均一次智能体运行，持续时间到底有多长。我不觉得他们会公布这种数据，但我感觉他们手里应该会有很有意思的数据，其他一些平台 probably 也会有。

因为我确实觉得，你正在看到这种变化：一个新的模型能力上线，或者一个新模型发布之后，那种持续更长时间的任务会突然上升。也许现在这个曲线还很低，但你已经能看到一些早期信号，表明它正在抬头。长时间运行任务正在出现，所有模型实验室也都在说：“我们发布了这个新模型，它能够自主工作三天”之类的话。

这当然是极端情况，但我觉得在实际中，你会看到这种能力正在很快地一点点渗透上来。这真的很有意思。

所以，即便企业今天在编程之外还没有强烈感受到，他们今年也会开始感受到，因为其他那些用例也会变得好得多。

主持人：从 DeepMind 的角度来看，你觉得“长时程智能体”是一个关键绩效指标吗？或者说，它是不是那个最重要的关键绩效指标？

Logan：它当然重要，绝对重要。我觉得对 DeepMind 来说，我们同时在做很多事情，这个之后也可以展开聊。我们有一整套非常庞大的不同押注组合。长时程智能体显然很重要。

另外，具体到编程智能体，它也非常重要。因为如果你拥有一个很强的编程模型，那它显然会成为你业务其他所有部分的加速器。所以，确保我们在这方面做到位，我觉得是非常优先的事情。

主持人：明白了。我想稍微切换一下话题，聊聊编程。

Logan：好。

主持人：我准备问个比较难的问题。我很多做开发的朋友以前长期都在用 Claude。后来 OpenAI 看到了这个情况，宣布进入“红色警报”状态，现在 Codex 也变得非常好了。我会说，我身边的朋友现在大概一半用 Claude，一半用 Codex。但我几乎没怎么听他们用 Gemini，这一直让我挺困惑的。到底发生了什么？

Logan：这是个很好的问题。我还想给这个故事补充一部分背景，而这会让它更有意思。去年 12 月的时候，外界叙事其实是 Google 赢了。Gemini 3 发布之后，我觉得那次模型能力提升是非常深刻的，外界很多声音都在说 Google 实现了一次巨大跃迁，把这件事做成了。

而有意思的是，作为生态系统中的一员，你会看到叙事并不是说瞬间转变了，而是下一阵风很快就吹到了“智能体式编程”这件事上。那就是假期期间一路延续到一月、再往后的那股浪潮。其实距离现在并没有很久。

主持人：对，但感觉从那之后一直都处于曲速状态。

Logan：当然，绝对是这样。但这也是一个元层面的提醒：事情变化得可以有多快。

我觉得你的观察并不是不合理。对我们来说，幕后真正发生的事，是我们正在尽可能快地推进编程这个方向的前沿。所以我觉得 Anti-Gravity 实际上是这里面非常重要的一部分。

一个重要教训是：如果你自己没有一个真的在做这件事的产品，那你其实很难为开发者这种长时程、复杂工作流场景做出一个优秀的编程模型。所以我觉得 Google 意识到了这一点。这也是为什么会有 Windsurf 那笔交易，为什么那些人会加入我们，并最终打造出 Anti-Gravity。

实际上，我们内部也一直在使用它。Sundar 在 I/O 上还展示过 Google 内部词元消耗增长的图表。所以你确实需要让那个飞轮转起来。而更宏观地说，飞轮现在已经在转了，只是模型进步确实需要时间。

但我非常有信心。我们现在负责代码方向的那批人，我在内部把他们形容成“人工智能复仇者联盟”。真的是 Google 里一些最顶尖的人在推动这块巨石上山，大家都非常认真地在做这件事，想尽办法往前推。

我觉得 3.5 Flash——即便外界对价格之类还有一些讨论——已经是迈向这些能力真正落地的重要一步，也说明这些投入开始结出成果。它是一个 Flash模型，但从编程角度看，它比我们之前发布过的任何 Pro 模型都更强。而之前那些 Pro 模型其实已经非常好了。

这里还有另一条线索，就是大家总会忘记“预训练窗口”这件事。我觉得很有意思的是，也许应该有人在网上专门跟踪这个。也就是说，大规模训练跑次、可用的算力集群这些因素，会如何影响进展。

这些“大跑次”本身就是这件事里非常有意思的一条主线。所以从外部看，可能会觉得“哦，你们是不是在某种意义上很落后”，但其实你完全错过了上下文：不知道大规模训练什么时候启动，不知道大规模预训练什么时候进行。

而 DeepMind 在预训练上历来都是非常强的，这显然是我们的巨大优势之一。我们有世界上最好的一批人。所以我也很期待看到这些努力真正结出果实。

另外也很酷的一点是，3.5 Flash 的提升全部都来自后训练。这非常了不起。团队仅靠后训练就做出了这种级别的进步，甚至超过了之前的 Pro 模型，这是对他们工作的巨大证明，真的很棒。

主持人：你们内部对“自己先用起来”这件事有多执着？比如说，DeepMind 的人现在还被允许用其他模型吗？还是说，大家都必须用 Gemini 这套运行框架，我们得把它打磨到极致？

Logan：我觉得使用其他模型其实非常健康，因为如果不这么做，有时候你真的很难把整个生态里到底发生了什么看明白。所以我自己会用所有模型，也会用所有产品。我觉得 DeepMind 其他很多人也是一样的。

不过你当然还是得用 Gemini 模型。这对反馈飞轮非常有帮助。而且模型之所以会变得更好，正是因为 DeepMind 和更广泛的 Google 内部，有超过十万名非常优秀的工程师在使用这些模型、不断给出反馈。

这本来就应该是 Google 的竞争优势，因为我们拥有这种规模的工程资源、这种人才深度，还能跑 A/B 测试、做线上实验等等。所以我觉得，所有模型都要用，但对绝大多数人来说，Gemini 仍然是日常主力，这很好。

主持人：你是否相信这样一种叙事：一旦你拥有足够好的智能体式编程模型，它就会加速研究进展的速度，并且形成一种自我强化的循环，也就是一种“软起飞”？听起来这似乎显而易见是对的，但也可能是我自己喝了太多迷魂汤。你现在已经看到这种迹象了吗？

Logan：我觉得你肯定能看到一些迹象。只是那些最早期、最明显的迹象，更多还是体现在产品层面，而不是模型层面。

我觉得这里面的一部分背景是，这种更大规模训练运行所需要的资源投入真的非常大。所以你当然还是需要有一个人坐在驾驶位上来做决策，因为你不可能随便就动用一万颗张量处理器去启动一个训练任务，结果那个任务其实根本没太大意义。

但从产品角度看，你绝对已经能看到这种变化。比如我们团队现在就有这种感受：我们用 Anti-Gravity 做出了移动应用，而且发布到全世界的速度，可能比 Google 历史上任何一个团队做移动应用都更快。Josh 的团队做 Gemini 的 macOS 应用时也是如此，他们端到端交付一个 Mac 应用的速度，比 Google 历史上任何一个团队都更快。

而这一切就是因为智能体式编程。所以从产品角度看，这很棒。

代码已经像一种狭义的超级智能

主持人：你以前说过，如果有一个系统能够用代码构建任何东西，人类在同一层级上就无法竞争，那就是一种“狭义超级智能”。你觉得我们已经到那个点了吗？

Logan：很有意思。我觉得“狭义超级智能”这个例子本身就很值得观察。因为在编程上，它现在确实已经有那种感觉了：编程能力实在是太强，以至于它确实有点像一种狭义超级智能。

当然，我也不确定具体怎么量化这件事，细节会影响判断。但我觉得重要的是，就像你前面说的，它在代码上确实工作得非常好。

如果它还能把其他很多事情也做得同样好，那当然很好；但仅仅是“它能把代码做好”这一点，本身就已经产生了极大的影响。所以我一直花很多时间，让这个事实慢慢沉淀到我心里。因为我觉得，打造通用人工智能当然非常重要，也非常有意思；但如果“打造通用人工智能”这个叙事反而掩盖了今天这项技术在现实中的能力，我觉得这其实是一种不太好的取舍。

所以我一直试图同时把两件事都放在脑子里：一方面，我们需要打造通用型技术；另一方面，仅仅拥有这样一个擅长代码的系统，本身就已经极其有影响力。而且我觉得，它并没有削弱人类开发者的价值。它更像是对人类开发者的加速器。

以我自己作为开发者的感受来说，我觉得我在这个世界上拥有了更多行动能力。我觉得自己可以去解决更有野心的问题。以前我脑子里会有一些点子，但总觉得稍微有点超出能力范围，只能说一句“要是能做出来就好了”。而现在我遇到的是相反的问题：我脑子里冒出一个点子时，会想“我大概还能把这个做得更有野心”。这实际上会额外带来一层责任感，或者说一种负担。因为我会觉得，我不能只做一个最小可行产品了，我得再往前走十步，因为技术已经允许我这么做。

而重新校准自己的野心水平，这也是我花了很多时间在思考的事。我觉得这种情况也会出现在其他那些“垂直领域超级智能”的场景里，会很有意思。

感觉像是，在我们真正“解决”通用智能之前，会先得到很多这样的垂直领域超级智能。几乎像是一种参差不齐的、锯齿状的超级智能。我觉得最后我们得到的会更像那样。

主持人：你觉得下一个会达到超级智能水平的垂直领域是什么？

Logan：这是个好问题。最近我大概花了太多时间在想编程了，所以我得先停一下，想想其他领域。

我觉得其中一部分取决于哪些事情更容易验证。显然，那些可验证性更强的领域，进展会更快。所以像数学、金融，实际上科学也可能会是一个非常有意思的领域。像这些多少有一定可验证性的领域，真的有可能会很快起飞，这会很酷。

我还觉得，在关于“人工智能会如何影响世界”的更大叙事里，有一点很重要：从事情先后发生的顺序来看，你其实会希望最先跑出来的是那些真正积极、有价值、对世界有重大正面影响的东西。这样人们才能尽早理解这项技术究竟可能带来怎样的积极作用。

所以我觉得，科学可能会是一个非常有意思的方向。

主持人：是啊，现在数学证明之类的事情也很多。虽然我不是数学家，所以很多内容对我来说有点超纲。不过我前几天看到一条很棒的推文：“为什么 Erdős 会有那么多问题？”

Logan：对，这个梗很好。我喜欢。这个真的适合印在 T 恤上，太有意思了。

主持人：说到推特，我在这次访谈前翻了你的推特，所以我要当面读一条你发过的内容。推特的好处就是，你所有的预测都有公开记录。

Logan：我得赶紧打开那个自动删推功能之类的东西了。

主持人：去年十月你发过一条：“到 2025 年底，每个人都能用氛围式编程做出电子游戏。”现在看来，这会成真吗？

Logan：感觉已经很接近了。当然，我说的不是 3A 大作，你还不能现在就做出下一代《使命召唤》或者《侠盗猎车手》。但我觉得这件事已经比以往任何时候都更接近了。

而关于电子游戏，其实有趣的一点在于，你最终需要连很多别的东西也一起搭出来，比如模型。我们刚才在镜头外也聊过，Three.js 就是个很好的例子。Three.js 让很多以前做不到的事情变得可能，但它仍然有很多毛边和问题，而这些并不是一个编程智能体本身就能解决的。

所以你还需要像精灵图生成这样的能力，而模型在原生状态下又并不太擅长这些东西。因此，你需要一层编排机制和工具链，才能把这一切真正串起来。还有很多类似的事情，对于游戏体验来说都是核心部分，它们需要很高的可靠性。

所以我觉得，这件事看起来已经触手可及了，但实际上仍然需要大量产品脚手架层面的工作，才能创造出那种可复用、可反复游玩、具备足够深度的体验。而且这里面还需要一点品味。

主持人：你有没有看到很多人在 AI Studio 和你们其他开发者平台里做游戏？

Logan：有。其实我当时发那条推文，就是因为我们看了早期数据。当时在 AI Studio 里，好像有大约 20% 的应用都是游戏，也就是人们在尝试做游戏。

主持人：那是最受欢迎的类别吗？

Logan：现在已经不是最受欢迎的类别了。因为整个生态和用户群体后来发生了变化。但游戏仍然非常多。

主持人：现在最受欢迎的类别是什么？

Logan：我记得大概有 20% 是金融相关的东西。

主持人：20%？大家这么喜欢盯着自己的钱看？

Logan：我觉得更准确地说，很多其实和加密货币有关。人们在金融领域做很多东西，也有很多个人效率相关的工具，还有很多生成式媒体相关的内容。毕竟 Google 整套生成式媒体能力非常强，团队做得非常好。

但我也觉得 GDM 对游戏有一种天然偏爱。很明显，Demis 非常在乎游戏，而且他最初之所以开始做人工智能，某种程度上也是因为游戏。所以我觉得我们还会在这方面做一些很有意思的尝试。

另外，我们团队在 Kaggle 那边——也就是我们在 GDM 里做很多人工智能基准测试的那部分——会和 GDM 一起做一个叫 Game Arena 的东西，用游戏作为通向通用人工智能进展的代理指标来进行测试。这也和 GDM 的历史有非常深的联系。

主持人：那你觉得，我们距离这样一个场景还有多远：街上随便一个普通人，只要有个好点子，就能用氛围式编程做出一个真的很好玩、可游玩的游戏？

Logan：我想说，就是今年。真的。我觉得模型能力已经让这件事变得可能了。

而我在产品侧之所以开始兴奋，正是因为——我们刚刚在镜头外也聊到这个生态里的创业公司——这件事已经是可能的了。问题看起来并不在于模型质量还有明显缺口，而在于是否有人真正懂得打造一个优秀游戏需要什么，并以正确的方式把脚手架搭起来，让这件事变成现实。

我觉得已经有人在这么做了。所以其中一部分问题其实是“可发现性”和“认知度”的问题：很多人甚至都不知道自己其实已经能做到这件事。另一部分则是，某些特定类别的模型能力也许还差那么一点点，我们距离跨过那道鸿沟，也许只差几周或者几个月；一旦跨过去，这件事对大多数人来说就会真正可用了。

世界模型的边界正在变模糊

主持人：这正好引出我接下来想问你的“世界模型”。你觉得，用氛围式编程做电子游戏，更可能会是“游戏引擎 + 编程智能体”的路径，还是更可能是“世界模型”的路径？

Logan：我觉得最终会发生的，是“世界模型”这个定义本身会变得模糊——我们待会儿可以结合 Omni 来聊这一点。

我认为，编程智能体最终看起来也会像某种世界模型式系统。但你如果想让世界模型真正对现实任务有用，你实际上还是需要脚手架。所以这里又有很多很有意思的创业公司，正在研究：要怎样给世界模型搭脚手架，才能把它们从那种天然非常开放的空间里，转化成一种具体、可落地、能在重复场景中使用的东西。

也许会有人真的找到一套适合世界模型做游戏的脚手架。但就世界模型当前的天然属性来看，我觉得它们并不太适合游戏。至少以现阶段的形式是这样。

不过它们的进展也非常惊人。所以谁知道呢，也许再过两年，那个版本就可以了。但至少从短期看，我认为“编程智能体 + 某种游戏引擎”这条路，会在游戏角度带来更多真正可用的成果。

主持人：这说得通。你刚才说“世界模型”的定义已经变模糊了。我们能拆开讲讲吗？

Logan：可以。我觉得 Omni 就是一个例子。你知道，我们在 I/O 上发布了它。它可以接收任意输入，生成任意输出。

我觉得 Demis 把它向世界介绍成一种世界模型，其实是很合理的，因为它对世界的理解程度已经非常高了。从技术上讲，它和我们以前做世界模型的方式还是不太一样——不过我并不是架构专家，没法精确解读内部所有实现细节——但从架构角度看，它确实和过去不同。

而我觉得这反而是好事，因为它似乎更接近某些真正可扩展的方向。过去的世界模型一直有个问题，就是扩展性非常差，运行传统的在线世界模型成本极其高昂。

主持人：对，比如 Genie 这类东西。

Logan：对。

主持人：所以如果把传统世界模型理解成某种“动作条件视频模型”，那么现在我们说“世界模型”时，实际上更像是在说一个“对世界有某种理解的模型”，而不再严格指那个技术意义上的动作条件视频模型。

Logan：对。不过有意思的是，它不仅理解世界，而且它还有那种非常强的生成能力。这就是我觉得界线开始变模糊的地方。它虽然现在还不是实时的，但它可以完成很多你会用传统世界模型去描述的那些用例，或者说，能生成出很多和那类世界模型在视觉上同样能生成出来的东西。

这一点对我来说最有意思。所以我确实觉得，“世界模型”和“视频模型”这条线之后会改变，会朝着一种过去不那么显然的方向发展。

主持人：那它在底层是怎么工作的？在你能分享的范围内，它是 Gemini 加视频模型，还是完全不同的东西？

Logan：它是一个单一模型。我觉得这一点最重要。这其实也是最初的目标之一：历史上，如果你想做这些事，你得训练八个不同的模型。

过去的情况是，你有一个文本模型，比如基础版 Gemini；你有音频模型；有 Lyria 这样的音乐模型；有 Nano Banana；有 Veo 视频模型；我们还有一整套音频模型。无论对我们还是对客户来说，如果只用一个模型就能完成这些事，会好得多。

所以它确实是一种新的架构设置，让这件事变得可能。它不是把请求路由到一堆不同模型上——虽然你其实完全可以想象我们以前就用那种方式，做一个“Gemini Omni”式的模型——但这次它是真正意义上的 Omni 模型。

而它现在首先落地的是目前效果最好的用例，也就是为什么目前真正开放出来的是视频编辑能力。从技术上说，它在别的方面也能工作，只是质量还不够完美，也还没有达到最先进水平，所以我们还没有把那些能力发布出来。

另外，这也只是 Omni 的第一轮模型转动，是 Omni Flash 的第一版。所以之后我们还会有能力强得多、威力大得多的版本，这会非常令人期待。

主持人：所以我们其实可以把这个拍摄现场改一改，让它看起来像……

Logan：对，对，对。我就想要这个。我们刚才在镜头外也说过，我们应该把这个用在片头里，因为我觉得这会让所有这些东西一下子更有能力。

我见过一些例子，那种细微到惊人的层次，让我真正意识到：这背后真的是一种世界理解在发挥作用。

有一次我在做演讲，站在台上，旁边是我朋友 Tulsi，她负责模型团队。我不知道你之前有没有邀请过她，她特别厉害。

当时我对观众席里的某个人随口说了一句，让他去改一下视频。结果那个人真的直接拿了现场画面，用 Omni 实时编辑，然后画面里就出现了一只狗走上了舞台。

在那个编辑后的视频版本里，其他嘉宾会稍微低头，看到那只狗，然后轻轻笑一下。而那时我还正在台上高谈阔论一些人工智能相关的废话。

主持人：他们是在笑你的笑话吗？

Logan：不是，不是笑我的笑话。他们是在笑那只走上来的狗。然后那只狗跳到我腿上，我会稍微示意一下，继续说话，一边说一边顺手摸摸它什么的。

而要把所有这些细微的反应都做对，里面真的有太多太多极其微妙的地方了。但模型完全做到了，表现非常出色。这个东西真的非常有意思，我现在还在试着吸收、消化这意味着什么——尤其是它会怎样改变我们制作内容的方式，以及其他很多事情。

不是 AI 替身，而是把原内容放大

主持人：我是最看好生成式媒体的人之一，也一直在想这意味着什么。比如对我们的播客来说，视觉和内容本身一样重要，甚至同等重要。

因为你首先得抓住别人的注意力，对吧？所以，好吧，我很期待去玩 Omni。

Logan：我也很期待。而且我觉得，作为一个做内容的人，你大概也会有类似感受。因为一直以来，就我个人而言，我其实非常坚持：我不会用 AI 来生成我自己产出的内容。那些都是我自己的文字，是我自己的声音，是我自己的形象和照片出现在那里。我就是觉得，这里面有非常多真正有价值的东西，也有真实感。所以我宁愿那是我自己，而不是一个 AI 版的我。

而我特别喜欢 Omni 的一点在于，它不是在改变“我”。它改变的是其他那些部分，而那些并不是“我”。比如我们周围的布景、咖啡桌，这些都不是我选的。所以我们的语言可以保持原样，而你可以去改变这些不那么私人、不那么属于人的部分，让它们变得更有意思。我觉得这真的非常非常酷。

这也更像是我希望生成式媒体成为的样子：不是一堆 AI 虚拟化身。

主持人：对，不是那种“水果岛”视频。

Logan：对，真的。它应该是原始内容，是那个人本人，那种“人的存在感”还在，只是被放大、被增强了。

主持人：非常有意思。好，我已经迫不及待想试试了。

Logan：对，我们录完之后就该马上发几个提示词试试，真的。

主持人：不过我其实也不讨厌那些水果视频。我很乐意生活在一个两种内容都存在的世界里。

主持人：说到编程这边，你们在 AI Studio 里上线了让人们用氛围式编程做 Android 应用的能力。

Logan：对，对。

主持人：我很想听听目前进展如何，以及你们打算把这件事带到什么方向。

Logan：这件事非常令人兴奋。我觉得对 AI Studio 来说，有一件很重要的战略性事情——而且这其实来自很多生态反馈，也来自开发者和其他人的反馈——就是 Google 有太多产品了。人们在打造创业公司、把想法变成现实的各种旅程里，会以很多不同方式接触 Google。

所以我们有一个非常核心的原则：怎样把某些能力带进 AI Studio，让你能够接触到 Google 生态中的其他部分，而不用在 Google 的九个不同界面里来回切换。

Android 就是个很好的例子。它不仅符合这个原则，还能让原本根本不会去做 Android 应用的人也能做出来。实际上，我人生中第一个 Android 应用，就是在 AI Studio 里做的。

主持人：很酷。那是什么应用？

Logan：不是加密货币应用，就是一个植物相关的。我那阵子在后院种树。

主持人：哦，一个园艺应用。

Logan：对。所以我当时就是一边试用，一边随手做了个园艺应用。我还没有遇到那个真正让我拍案交绝、一定要做成移动应用的点子，但我会继续想，看看能不能做点什么，然后真的去应用商店里竞争一下。

主持人：你见过有哪种用氛围式编程做出来的应用，已经在应用商店里飞起来了吗？

Logan：这是个好问题。其实很值得做点 analysis。我不知道。我相信它一定在加速应用商店里的很多事情，但我还不知道到底有多少。我个人也还不认识哪个人是靠这种方式直接做成的。

不过我还想补充一个观察。我们今天早上在看数据时，我记得上一次看，数字大槪是：自上周以来，AI Studio 里已经做出了 35 万个 Android 应用。这个数字非常疯狂。

更令人兴奋的是，这 35 万个应用里，很多原本压根就不会有人去做。而且其中很多都是个人用途的。这也是为什么我觉得——也许“生成式界面”这个概念还要更远一点——但“你亲手构建软件来解决自己的个人问题”这件事，现在已经非常真实了，而且人们真的在这么做。这几乎已经成了这些产品最常见的用例之一。

另外，能够解锁手机本地的大量原生能力，我觉得也非常有意思。因为你的很多上下文信息原本散落在不同地方。所以我对这类机会越来越兴奋，而 Android 也感觉正在变成“构建者的平台”。

主持人：一个东西是应用，还是只是网页，这件事还重要吗？毕竟现在网页也已经很强大了。

Logan：对，这一点也非常有意思。网页当然很强大，但操作系统有一些能力是网页根本无法真正解锁的。比如很多原生层面的丰富性，会让整个体验显得更丰富。

我实际上会拿短信体验来想这个问题。对我来说，各大主流操作系统里的短信体验，都比我用过的任何 AI 聊天应用更丰富。如果我能直接在我平时用的短信应用里和 AI 对话，而不是非得跳去另一个应用，我会高兴得多。因为我觉得我们其实也已经被操作系统训练成那样了。

主持人：说得通。接下来我想问“模型吞掉运行框架”或者“模型吞掉脚手架”这件事。你怎么看？

模型会把脚手架吞进去

Logan：我觉得这是真的。我觉得这里面有一部分原因是，我们过去理解的“模型”已经不再只是模型了。

比如两年前，大语言模型刚火起来的时候，所谓“模型”其实真的就只是一组权重而已。它就是一组权重，然后尽可能简单地把词元送进去，再把词元吐出来。

但我觉得，随着一步一步演进，我们现在虽然还叫它“模型”，还叫它 Gemini 3.5、GPT 某某、Claude 某某，但它其实已经不只是权重了。它已经变成了一个围绕权重构建起来、不断扩展蔓延的完整系统。这个系统支撑了很多下一代体验：从智能体式工具调用，到各种托管工具、搜索、代码执行等等。

模型现在会在容器里启动，会带着智能体运行框架等等。所以所谓脚手架，往往总是比那些真正内建到模型里的东西领先一两步。然后接下来会发生的事就是：模型把这层脚手架吞进去，它变成原生模型系统的一部分。

当然，在某些场景下，外部脚手架依然有价值。搜索也许就是一个例子：很多人会用不同的搜索提供商，也有不同类型的搜索需求。所以也许模型可以原生使用搜索，但你依然还会想要一些额外能力。代码执行也是类似的例子。

但现在给我的感觉是，智能体运行框架几乎就是这件事最典型的例子。大家都在说：“我们得去做运行框架，真正的价值就在运行框架里。”但我觉得，也许再过 12 个月，这种说法至少不会以我们今天理解运行框架的方式成立了。模型会把其中很大一部分消化进去，变成模型上游自带的能力。到时候真正的价值点会跑到别处，不再是“自己卷一个运行框架”，因为模型已经能原生做这件事。

主持人：但我原本以为，人们之所以自己做运行框架，是因为如果你用某个模型提供商给的运行框架，你就会被锁定在它那里。很多应用公司想保留灵活性，所以才自己做运行框架。

Logan：对，我觉得这也是脚手架故事的一部分：一开始这也许确实是真的。但随着模型能力提升，这件事会随着时间推移变得越来越不成立。

实际上，如果一个模型连别人的运行框架都用不了，那你就不能说它是一个真正通用的模型。所以这一点其实非常重要。

几周前我和别人聊的时候提到过，我们需要一个类似“运行框架基准”的东西，专门去衡量：不同模型适配各种运行框架的能力到底有多好。我觉得从整个生态的角度来看，这完全是个值得测量的事情。

我也很好奇最后会看到哪些模型表现最好。但我觉得从长期看，你会期望它们最终都能用所有运行框架。除非你真的完全超出了模型分布范围；但那种情况下，即便你用的是自己做的运行框架，你照样还是超出分布范围。所以我不确定那是否真的那么重要。

主持人：有道理。那应用层呢？当模型吞掉运行框架、吞掉周边这些东西时，你怎么看独立公司还有什么生存空间？

Logan：这件事很有意思，因为它同时像是两个互相矛盾的命题都成立了。

一方面，我放眼望去，会觉得现在从未有过这么多机会去构建新东西；另一方面，模型又确实比历史上任何时候都做得更多。

我觉得其中有一条线索是“能力冗余”，这里面有大量真正的机会。还有一条线索是，模型公司追逐的通常是这些非常通用的大问题，而在很多高度垂直的领域里，如果你有该领域的专业知识，就有巨大的价值。你了解客户，了解生态，知道这个行业如何运转，那么即使面对最顶尖的模型实验室，你也可以把他们远远甩开。因为专注就是创业公司的超能力。只要你能专注，你几乎什么都能做成。

如果你去看那些很大的公司，或者同时做很多事的公司，它们其实很难真正专注。这在某些情况下也是有道理的——也许我这是在过度为 Google 的战略辩护——但我们确实有很多产品、很多用户、很多不同事情在同时发生，所以我们不可能把全部精力聚焦在单一领域。作为一家大公司，我们有义务去做很多事。

但创业公司没有这个问题。所以我觉得，24 个月前，我们都在问自己：机会空间是不是在变化？未来会不会出现一种结果，就是创业公司的机会反而变少？

到目前为止，事情的发展似乎并不是那样，这其实非常积极。恰恰相反，机会看起来反而更多了。现在有了编程能力，你和那些拥有庞大既有代码库的大公司之间的差距也被拉近了，因为你可以跑得更快，软件写得更快。

而“智能体”这个原语本身也是一个全新品类，你可以围绕它来构建产品。再回到前面说的风险问题：做这些事本来就伴随着风险，而不同公司的风险偏好不同。如果你愿意在某些领域承担更多风险，你就能赢得那群同样愿意承担风险的用户。

机会真的非常多。

我们都在争谁能把世界变得更好

主持人：太棒了。我很想聊聊 Google DeepMind 的文化。我很好奇，现在待在 GDM 里面是什么感觉？我们在 AI Ascent 上见过 Demis，他特别鼓舞人心。我听说 Sergey 回来了，你们也把 Noam Shazeer 请回来了。你给我讲讲，现在身处 GDM 是什么感觉。

Logan：那种感觉非常不可思议。我确实会努力去把这一切都好好感受一遍，因为这真的是一个值得珍惜的时刻。我尽可能在这种混乱而高速的节奏里抽一点时间出来反思，因为真的有太多太酷的事情在发生。

GDM 的文化很有意思。我大槪有三点观察。

第一，还是回到“专注”这条线。我们同时在做很多事，所以我经常会从“投资组合”的角度思考。我觉得我们的整体项目组合非常强，这点很令人兴奋。但你也会看到某些时刻，另一个实验室、另一家公司会在某个方向上跑到前面，因为我们在那个领域投入得不够，只是没有聚焦到位。

而看到我们如何想办法缩小这些差距，本身也很酷，我非常欣赏。

我自己看过几次关于 Demis 的那部纪录片《The Thinking Game》。你会在里面看到很多关于最初文化的细节，比如他们最早如何组织冲刺、如何工作等等。而这些在今天其实仍然非常相似：就是把一群聪明人聚在一起，然后去解决问题。我很喜欢这一点，也很酷，能成为其中一部分。

第二点，我觉得文化会从领导者身上往下渗透。也许这不是对整个生态最完美的概括，但 Demis 是诺贝尔奖科学家，也是这整件事最早的一代开创者之一。你会在 DeepMind 的文化里感受到这一点。

我觉得 Sam 是那种——也许可以说是世界上最厉害的商业人物之一——而你也能在 OpenAI 的文化和他们做事的方式里看到这种气质。

至于 Dario，我没有那么强烈的判断。但我觉得 Anthropic 是个非常有意思的地方，而从外部观察，他似乎是个很特别的人，多少有点玄学气质，所以你也会觉得，这种气质似乎渗透到了那家公司的基因和文化里。

其他实验室也都很有意思。但我个人非常喜欢这种非常科学的方法论，以及 Demis 看待世界的方式。他做这件事、他们开启这项使命，真的是为了治愈疾病、解决这些真正重大的问题。

而且我总是试图把自己从当下的竞争情绪里抽离出来。因为太容易陷进这种竞赛心态里：谁在软件工程基准上又把分数刷高了一点之类的。太容易忘记，我们之所以做这些，是为了最终去解决人类真正面对的问题。

我在整个硅谷最喜欢的一句名言，大概是：“我们不能让别人把世界变得比我们更好。”这几乎就是当下这一刻的感觉。我们大家现在都在争：到底谁能把世界变得比别人更多一点。你换个角度这样说出来，会觉得这件事有点滑稽。

主持人：Gavin Belson 的那句。

Logan：对，就是 Gavin Belson 那句。我总是在想这句话。我们大家现在都在争：到底谁能把世界变得比别人更多一点。

所以这根本不是零和的。我觉得这也是一种看待世界的方式。

关于 DeepMind 文化的第三点是：我们很像 Google 的“引擎室”。我记得这甚至现在已经是 DeepMind 推特账号的简介了，我特别喜欢。

主持人：你在运营 DeepMind 的推特吗？

Logan：不是，我可不想承担替别人运营账号的责任。那责任太大了。

但它确实有那种感觉。一方面，你有那种根基很深的实验室文化；另一方面，你又有整个 Google 生态里的各种合作伙伴，大家一起协作——从我们刚才提到的 Android，到 Google Cloud，再到 Gmail、Workspace 等等。

所以这是一个很有意思的混合体：一边有很多研究工作在进行，一边又有大量应用层工作在发生，真正去和一些最前沿的客户合作。把 Gemini 部署到十亿用户级产品里，这个问题全世界可能只有两家公司会遇到。而我们有 13 个这样的产品，Google 现在不断在经历这件事。能够近距离看到这件事如何发生，以及为了让它真正可行而产生了哪些创新，这真的非常有意思。我觉得这种体验只有在 Google 里面才能获得，这点非常酷。

主持人：说得真好。你加入之后又常常在推特上发言，他们有没有很头疼？

Logan：这是个好问题。我当然会和公关团队对齐。

我觉得，我在 Google 经历中一个意外的收获，就是营销、公关那群同事真的特别好合作。我知道他们的工作是保护 Google，确保我们讲的是正确的故事，确保别出各种糟糕的问题。所以我对他们有很多感谢，也把他们当作合作伙伴。

但与此同时，能够去尝试讲一个真正能打动开发者、而且又感觉真实的故事，这种体验也非常棒。我并不需要每条推文都去审批之类的，这一点其实反映出一种很积极的文化。

我也一直努力拿捏那个边界，不去辜负我和那些同事之间积累起来的信任和善意。但整体体验真的非常正面。因为归根结底，我觉得 Google 要讲一个“真实”的故事其实很难。毕竟这是家大公司，人很多，意见也很多。

于是 Google 原本那种真正的魔力，经过一层又一层人和流程的稀释之后，你反而会错过那个最美的故事：Google 正在做世界上最有意思的技术，也在帮助我们的用户解决世界上一些最难的问题。

而我能参与讲述这个故事，本身就是一种荣幸。所以这件事真的很有趣，我很享受。

主持人：我很喜欢你在做的事情，也很喜欢 Josh 在做的事情。我觉得你们给——正如你说的——这个时代最重要的问题，带来了一种非常真诚、非常有人味的表达方式。谢谢你。

Logan：谢谢。

把所有产品串起来的新主线

最大化结果，不是最大化眼球

只有代码智能体真正跑起来了吗？

代码已经像一种狭义的超级智能

世界模型的边界正在变模糊

不是 AI 替身，而是把原内容放大

模型会把脚手架吞进去

我们都在争谁能把世界变得更好

相关新闻