一张图生成游戏？谷歌Genie体验：万物皆可玩，但离“杀死游戏公司”还远

来源：36kr 2 小时前

在开始之前，我想先问大家一个简单的问题：

你们还在苦苦等待《GTA 6》的发售吗？

我是不清楚大家的想法啦，但小雷真的非常期待它的到来。要知道《GTA 5》发布至今已经过去十三年了，时至今日却依然魅力不减。让人不得不期待，在漫长的等待后，R星究竟能够端出一款怎样的作品。

不过，虽然现在说出来可能有点泼冷水，但在R星还在为发售日期遮遮掩掩的时候，大洋彼岸的谷歌DeepMind团队却悄悄搞出了一个大动作。如果不出现意外，这东西可能会彻底改变我们对游戏这两个字的理解。

近日，谷歌在官方博客正式宣布，已向部分用户开放体验Project Genie原型版本，能让用户生成属于自己的可玩游戏世界。

（图源：雷科技）

消息一出，《GTA》开发商R星的母公司Take-Two Interactive股价缩水10%，在线游戏平台Roblox下跌了超过12%，最惨的是游戏引擎制造商Unity下跌了21%，反而是国内厂商网易、腾讯基本没有受到什么影响。

趁这机会，小雷打算和大伙好好聊聊，这个敢抢《GTA 6》风头的AI到底是何方神圣，它现在的体验究竟到了什么地步，以及在不远的未来，我们的游戏和虚拟世界到底会变成什么样。

只要一张图，万物皆可玩

在介绍技术之前，我们得先搞清楚它有多离谱。

过去我们想做一款游戏，流程是怎样的？你需要策划写剧本，美术画贴图，程序员敲代码，最后还得通过引擎渲染出来。

这个过程可谓既漫长又烧钱，即便是育碧、EA这样的游戏巨头，也要做到数十年如一日地投资，最终成品却没有人能够笃定效果如何。

但Project Genie的诞生，把这个逻辑完全颠覆了。

（图源：谷歌）

它的核心能力可以概括为一句话：生成即交互。

你给它一张照片，或者一张手绘的草图，甚至是一句简单的文字描述，它就能把世界和角色搭出来。

（图源：谷歌）

然后，你可以指定游戏的操作方法，例如走路、骑行、飞行还是开车，Project Genie就会试图理解物理规律，然后直接生成一个可以操控的世界：

（图源：谷歌）

没错，就像上面这个样子。

世界一旦生成，我们就可以直接在里面行动了。在Project Genie里，你往前走，前方路径会实时生成，你转视角，镜头也会跟着同步调整，整个过程更像是在一个持续展开的空间里进行探索。

不满意，那就把这个世界修改一下。

和其他AIGC内容类似，Project Genie生成的世界并不是一次性产品，我们还可以在已有世界的提示词基础上继续修改，比如把狗换成粉色气球兔子。

（图源：谷歌）

你甚至可以丢一个真实世界的图片进去，让Project Genie帮我们做二创并让其动起来，完成之后，还能直接导出成视频，方便保存或分享。

也正因为功能如此之强大，于是乎，脑洞大开的网友们很快就把它玩出了花。

在哔哩哔哩上，就有UP主上传了一张主播许昊龙的经典照片。在Project Genie的处理下，下一秒，画面里的炫狗就变成了可操控的角色，你可以按下键盘的方向键，控制他在那个车库背景里跑动、跳跃，甚至能和世界里的物品产生真实接触。

（图源：bilibili）

经典耄耋梗图？给我动起来！

（图源：bilibili）

给它一张《原神》的图，它也能自动生成风之翼的效果，让角色在空中自由驰骋，甚至能模拟出滑翔的效果。

（图源：bilibili）

在推特上，甚至有人随手在纸上画了几个火柴人，旁边画了几道波浪线代表水，拍张照上传给Project Genie。系统就能把这个涂鸦变成一个关卡，火柴人真的能跳过那些波浪线，甚至如果不小心掉下去，还能模拟出坠落的效果。

而这就是Project Genie最吓人的地方：

它不需要代码，也不需要3D建模，它仅仅通过看图，就理解了什么是地面、什么是障碍物、角色该怎么动。

与之对比，国内游戏大厂们其实也没闲着，但方向多少有点小家子气。

你看，网易的《逆水寒》天天吹嘘AI NPC有多会聊天，腾讯忙着让AI在《王者荣耀》里虐菜。然而这些所谓的黑科技，说白了就是在用AI赋能游戏，本质还是机器人，远远达不到颠覆游戏创作流程的水平。

只能说国内厂商们，还是任重而道远啊。

看起来很美，但是不成熟

诶，有的读者可能要问了，既然这东西说得这么神，是不是明天游戏公司都要倒闭了？

嗯...这倒也不至于。

尽管看起来有些类似，但是Project Genie本质上和我们玩的《黑暗之魂》或者《王者荣耀》之类的游戏完全是两个物种。

传统游戏是基于游戏引擎的，你按一下跳跃键，程序会根据重力参数计算你跳多高；你扔出一个铁球，程序利用经典物理公式来计算它的下落速度；你打开手电筒，程序则会模拟光照和物体材质，来实时渲染光照的效果。

而Project Genie是基于Genie 3、Nano Banana Pro和Gemini的，其核心Genie 3本质上是一个采用自回归生成机制的帧生成模型，它会根据世界描述和用户操作，逐帧生成环境状态，而不是播放预先生成好的内容。

（图源：谷歌）

我知道，在老黄大肆推广的今天，帧生成已经不是什么新鲜玩意了。

它的工作原理，就是看着前几帧画面，然后猜测下一帧的画面。

通过学习谷歌庞大数据库里超过20万小时的游戏视频，Genie 3记住了每一种“当屏幕上有个小人，且玩家按下右键时，下一帧画面通常会发生什么”的可能性，并会在玩家做出的操作生成对应的画面。

问题就在这里，Genie 3根本不懂物理，没有可靠的逻辑计算，而是通过不断猜测来拓展世界的，这也导致了目前的体验有两个非常明显的硬伤。

首先是缺乏一致性。

尽管谷歌方面声称，为了防止AI算力过载或者逻辑崩坏，玩家只能生成一分钟的片段。

但在一分钟的限制下，我们依然能看到严重的记忆丢失。就用上面举例的许昊龙，明明玩家导入的是一张正面照片，但在实际操作角色10秒后，再次切到正脸，你会发现角色的面部发生了180°改变——变成了一个纯种白人大叔。

（图源：bilibili）

我想，除了玩Roguelike游戏的时候，应该没有多少人愿意接受这种在一个游戏里，同一个地方每次去都不太一样的情况吧

其次是没什么逻辑。

在传统游戏里，你撞到墙会被弹回来，对吧。

但在Project Genie的世界里，AI是有猜错的时候。这就导致你控制的角色可能会突然穿墙而过，或者跳着跳着突然融化进了地板里，甚至有时候走着走着，身后突然长出一棵树来。

（图源：bilibili）

这种体验非常诡异，就像我们在做清醒梦，你知道自己在控制着角色，但世界总是在发生一些毫无逻辑的形变。

需要明确的是，相比前代以及其他视觉语言模型/世界模型，Genie 3的一致性、稳定性已经强出不少，但出戏的情况仍然有相当大的概率出现，这在追求可玩性的游戏里绝对是不可接受的。

正因如此，它目前的价值，更多是给游戏设计师提供一个快速验证灵感的方法。

对我们普通玩家来说，当个新鲜玩具，玩个几分钟娱乐一下或许还行。距离真正的沉浸式娱乐，还有很长一段路要走。

世界模型，才是AI的下一个战场

说到这里，可能有人会觉得，既然画质这么渣，Bug这么多，那谷歌花这么多钱搞这个Project Genie，是不是点错科技树了？

在我看来，恰恰相反。

Project Genie的出现，其意义远不止做个游戏这么简单，它代表了人工智能从“理解静态世界”迈向了“模拟真实世界”的关键一步。

我们现在熟悉的Sora、Runway这些视频生成模型，虽然能做出好莱坞级别的画面，但它们是被动展示的。观众只能看，不能互动。

（图源：OpenAI）

而Genie 3代表的世界模型，则是要让AI理解：因为我做了一个动作，所以世界发生了改变，让AI从被动展示到主动交互，从静态叙事到动态推演，这正是通往通用人工智能（AGI）的必经之路。

试想一下，如果未来的Genie能进化到4K画质、60帧，并且物理逻辑完全准确，那意味着什么？

举个简单的例子，这意味着我们不需要在现实中去训练机器人了。我们可以让AI机器人在Project Genie生成的虚拟世界里，摔倒一万次，学会走路，学会拿杯子，然后再把这个算法加载到实体机器人身上。

当然了，目前盯着这个赛道的，可不止谷歌一家。

OpenAI明确说过Sora本质上也是世界模型，英伟达刚推出的Cosmos模型号称专注于让AI理解物理定律，国内的众多大厂也在暗中布局。大家都在赌，谁能先造出那个成熟的世界雏形。

对这种新生代物种来说，好戏才刚刚开场。

只要一张图，万物皆可玩

看起来很美，但是不成熟

世界模型，才是AI的下一个战场

相关新闻