刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体

河北创正电气设备科技有限公司 高压接地线 14

  来源:华尔街见闻

  谷歌DeepMind最新基础世界模型Genie 2登场!只要一张图,就能生成长达1分钟的游戏世界。从此,我们将拥有无限的具身智能体训练数据。更有人惊呼:黑客帝国来了。

  就在刚刚,谷歌DeepMind的第二代大规模基础世界模型Genie 2诞生了!

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第1张图片-河北创正电气设备科技有限公司

  从此,AI可以生成各种一致性的世界,最长可玩1分钟。

  谷歌研究人员表示,相信Genie 2可以解锁具身智能体的下一波能力。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第2张图片-河北创正电气设备科技有限公司

  从第一人称的真实世界场景,到第三人称的驾驶环境,Genie 2生成了一个720p的世界。

  给定一幅图像,它就能模拟出世界动态,创建一个可通过键盘和鼠标输入的、可操作的一致环境。

  具身智能体的潜力有多大?

  在以下这个Imagen 3生成的世界中,研究者测试出最新的智能体是否可以遵循语言指令,走到红门或蓝门。

  结果令人惊喜!

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第3张图片-河北创正电气设备科技有限公司

  就这样,现在我们拥有了一条通往无限环境的道路,来训练和评估具身智能体了。

  研究者创造了一个有3个拱门的世界后,Genie 2再次模拟了这个世界,让团队解决了任务。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第4张图片-河北创正电气设备科技有限公司

  对此,网友们纷纷表示赞叹:’这项工作实在是太棒了!今后,我们终于可以将开放式智能体与开放世界模型结合起来。我们正在朝着近乎无限的训练数据体系迈进。’

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第5张图片-河北创正电气设备科技有限公司

  还有网友表示:‘黑客帝国’的世界,要来了!

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第6张图片-河北创正电气设备科技有限公司

  为未来的通用智能体,生成无限多样的训练环境

  作为一种基础世界生成模型,Genie 2能生成无限多样的、可操控且可玩的3D环境,用于训练和评估具身智能体。

  基于一张提示词图像,它就可被人类或AI智能体操作了!方式是使用键盘和鼠标输入。

  在AI研究中,游戏一直扮演着至关重要的角色。因为具有以引人入胜的特性、独特的挑战组合以及可衡量的进展,游戏成为了安全测试和提升AI能力的理想环境。

  自Google DeepMind成立以来,游戏一直都是研究的核心——从早期的Atari游戏研究,到AlphaGo和AlphaStar等突破性成果,再到与游戏开发者合作研究通用智能体。

  然而,训练更通用的具身智能体,却因缺乏足够丰富和多样化的训练环境而受到限制。

  但现在,Genie 2的诞生改变了一切。

  从此,未来的智能体可以在无限的新世界场景中进行训练和评估了。

  交互式体验原型设计的新型创意工作流程,也有了全新的可能性。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第7张图片-河北创正电气设备科技有限公司

  基础世界模型的涌现能力

  迄今为止,世界模型在很大程度上都受限于对狭窄领域的建模。

  在Genie 1中,研究人员引入了一种生成多样化二维世界的方法。

  而到了Genie 2这一代,在通用性上实现了重大突破——它能生成丰富多样的3D世界了。

  Genie 2是一种世界模型,这就意味着,它可以模拟虚拟世界,包括采取任何行动(如跳跃、游泳等)的后果。

  基于大规模视频数据集进行训练后,它像其他生成式AI模型一样,展现出了各种规模的涌现能力,例如物体交互、复杂的角色动画、物理效果、建模、预测其他智能体行为的能力等等。

  对于每个人类与Genie 2互动的demo,模型都以由Imagen 3生成的单张图片作为提示词输入,

  这就意味着,任何人都可以用文字描述自己想要的世界,选择自己喜欢的渲染效果,然后进入这个新创建的世界,并且与之互动(或者,也可以让AI智能体在其中被训练或评估)。

  每一步,人或智能体都能通过键盘和鼠标提供动作,而Genie 2会模拟下一步的观察结果。

  在长达一分钟的时间里,Genie 2可以生成一个一致的世界,持续时间直接长达10-20秒!

  动作控制

  Genie 2能够智能响应通过键盘按键采取的动作,识别角色并正确移动。

  例如,模型必须计算出,箭头键应该移动机器人,而不是移动树木或云朵。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第8张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第9张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第10张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第11张图片-河北创正电气设备科技有限公司

  生成反事实

  Genie 2能够基于同一个开始画面,创造出多个不同的发展。

  这意味着我们可以为AI训练提供各种‘如果这样做会怎样’的场景。

  在下面的这两行demo中,每个视频都会从完全相同的画面开始,但人类玩家会选择不同行动。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第12张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第13张图片-河北创正电气设备科技有限公司

  长时间记忆

  Genie 2能够记住那些暂时离开画面的场景,并在它们重新进入视野时,精确地还原出来。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第14张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第15张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第16张图片-河北创正电气设备科技有限公司

  持续生成新场景

  Genie 2能在过程中实时创造出符合逻辑的新场景内容,并且可以在长达一分钟的时间内保持整个世界的一致性。

  多样化环境

  Genie 2能够生成多种不同的观察视角,比如第一人称视角、等距视角(45度俯视角)或第三人称驾驶视角。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第17张图片-河北创正电气设备科技有限公司

  

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第18张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第19张图片-河北创正电气设备科技有限公司

  3D结构

  Genie 2能够创建复杂的3D视觉场景。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第20张图片-河北创正电气设备科技有限公司

  物体属性与交互

  Genie 2能够建模各种物体交互,例如气球爆裂、开门和射击炸药桶。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第21张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第22张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第23张图片-河北创正电气设备科技有限公司

  角色动画

  Genie 2能够为不同类型的角色,制作各种动作的动画。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第24张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第25张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第26张图片-河北创正电气设备科技有限公司

  NPC

  Genie 2能够为其他智能体建模,甚至与它们进行复杂交互。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第27张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第28张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第29张图片-河北创正电气设备科技有限公司

  物理效果

  Genie 2能够模拟出水面的动效。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第30张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第31张图片-河北创正电气设备科技有限公司

  烟雾

  Genie 2能够模拟烟雾的效果。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第32张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第33张图片-河北创正电气设备科技有限公司

  重力

  Genie 2能够模拟重力。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第34张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第35张图片-河北创正电气设备科技有限公司

  光照

  Genie 2能够模拟点光源和方向光。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第36张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第37张图片-河北创正电气设备科技有限公司

  反射

  Genie 2能够模拟反射、泛光和彩色光照。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第38张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第39张图片-河北创正电气设备科技有限公司

  基于真实图像的模拟

  Genie 2还可以将真实世界的图像作为提示词输入,并模拟出草叶在风中摇曳或河水流动等场景。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第40张图片-河北创正电气设备科技有限公司

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第41张图片-河北创正电气设备科技有限公司

  快速创建测试原型

  有了Genie 2,制作多样化的交互场景就变得简单了。

  研究人员可以快速尝试新环境,来训练和测试具身AI智能体。

  例如,下面就是研究人员向Genie 2输入Imagen 3生成的不同图像,来模拟操控纸飞机、飞龙、猎鹰或降落伞等不同的飞行方式。

  在这个过程中,也同时测试了Genie处理不同控制对象动作时的表现。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第42张图片-河北创正电气设备科技有限公司

  凭借强大的离散泛化能力,Genie 2可以将概念设计图和手绘草图转化为可实际交互的场景。

  从而让艺术家和设计师能够快速验证创意,提升场景设计的效率,并加快相关研究的进度。

  以下是由概念设计师创作出的一些虚拟场景示例。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第43张图片-河北创正电气设备科技有限公司

  AI智能体在世界模型中行动

  借助Genie 2,研究人员能够快速构建出丰富多样的虚拟环境,并创造全新的评估任务,来测试AI智能体在从未接触过的场景中的表现。

  下面这个demo,就是由谷歌DeepMind与游戏开发者共同开发的SIMA智能体,它能够在Genie 2仅通过一张图片生成的全新环境中,准确理解并完成各种指令。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第44张图片-河北创正电气设备科技有限公司

prompt:一张第三人称开放世界探索游戏的截图。画面中的玩家是一名在森林中探索的冒险者。左边有一座红门的房子,右边有一座蓝门的房子。镜头正对着玩家的身后。#写实风格 #身临其境

  SIMA智能体的目标是,能够在多样化的3D游戏环境中,通过自然语言指令完成各种任务。

  在这里,团队使用Genie 2生成了一个包含两扇门(蓝色和红色)的3D环境,并向SIMA智能体提供了打开每扇门的指令。

  过程中,SIMA通过键盘和鼠标来控制游戏角色,而Genie 2负责实时生成游戏画面。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第45张图片-河北创正电气设备科技有限公司

  打开蓝色的门

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第46张图片-河北创正电气设备科技有限公司

  打开红色的门

  不仅如此,我们还可以借助SIMA来评估Genie 2的各项能力。

  比如,通过让SIMA在场景中四处查看并探索房屋背后的区域,测试Genie 2是否能够生成一致性的环境。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第47张图片-河北创正电气设备科技有限公司

  转身

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第48张图片-河北创正电气设备科技有限公司

  去房子后面

  尽管这项研究还处于起步阶段,无论是AI智能体的表现,还是环境的生成都还有待提升。

  但研究人员认为,Genie 2是解决安全训练具身智能体这一结构性问题的路径,同时也能够实现通向通用人工智能(AGI)所需的广度和通用性。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第49张图片-河北创正电气设备科技有限公司

prompt:一个电脑游戏场景,展示了一座粗犷的石洞或矿洞内部。画面采用第三人称视角,镜头在主角上方俯视着。主角是一位手持长剑的骑士。骑士面前矗立着三座石砌的拱门,他可以选择进入任一道门。透过第一扇门,可以看到隧道内生长着散发荧光的奇异绿色植物。第二扇门后是一条长廊,洞壁上布满了铆接的铁板,远处隐约透出令人不安的光芒。第三扇门内则是一段粗糙的石阶,蜿蜒通向未知的高处。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第50张图片-河北创正电气设备科技有限公司

  走上楼梯

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第51张图片-河北创正电气设备科技有限公司

  去有植物的地方

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第52张图片-河北创正电气设备科技有限公司

  去中间的门

  扩散世界模型

  Genie 2是一种基于大规模视频数据集训练的自回归潜变量扩散模型。

  其中,视频的潜变量帧首先先会由自动编码器进行处理,然后被传递给一个基于类似LLM中因果掩码训练的大规模Transformer动态模型。

  在推理阶段,Genie 2可以以自回归的方式进行采样,逐帧利用单个动作和先前的潜变量帧。期间,无分类器指导(classifier-free guidance)会被用于提高动作的可控性。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第53张图片-河北创正电气设备科技有限公司

  值得注意的是,上文中的演示均由未经蒸馏的‘满血版’基础模型生成,从而充分地展示技术潜在的能力。

  当然,也可以实时运行经过蒸馏的版本(distilled version),但输出质量会相应降低。

  花絮

  除了这些酷炫的demo之外,团队还在生成过程中发现了很多有意思的花絮:

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第54张图片-河北创正电气设备科技有限公司

  在花园里站着发呆,突然间,一个幽灵出现了

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第55张图片-河北创正电气设备科技有限公司

  这位朋友更喜欢在雪场里跑酷,而不是老老实实地用滑雪板滑雪

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第56张图片-河北创正电气设备科技有限公司

  能力越大,责任越大

  致谢

  最后,谷歌DeepMind团队放出了一个长长的致谢名单。

刚刚,DeepMind最强「基础世界模型」诞生!单图生1分钟游戏世界,解锁下一代智能体-第57张图片-河北创正电气设备科技有限公司

  参考资料:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

  本文来源:新智元,原文标题:《刚刚,DeepMind最强‘基础世界模型’诞生!单图生1分钟游戏世界,解锁下一代智能体》

  风险提示及免责条款

  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

抱歉,评论功能暂时关闭!