作家 | ZeR0
裁剪 | 漠影
智东西12月5日报谈,AGI竞赛愈演愈烈!就在OpenAI晓谕将于畴昔12天直播新发布和demo前,昨夜,Google DeepMind发布大型基础寰球模子Genie 2,能生成千般可限度手脚、可玩的3D环境,还不错用于磨砺和评估具身agent。
只好给一张教唆图像,Genie 2就能按照你输入的文本教唆,生成对应的交互式造谣寰球。不管是东谈主类已经AI agent,齐不错使用键盘和鼠标来在由AI生成的3D游戏寰球里探索和互动。
Genie 2是一个自转头潜在扩散模子,磨砺于大型视频数据集。过程自动编码器后,视频中的潜在帧被传递到大型Transformer能源学模子。该模子使用与诳言语模子访佛的因果掩码进行磨砺。
在推理时,Genie 2能以自转头形势进行采样,逐帧赢得单个手脚和曩昔的潜在帧。Google DeepMind使用CFG(无分类器领导,classifier-free guidance)来普及手脚可控性。
博客著作放出大宗由未蒸馏的基础模子生成的视频示例,来展示Genie 2在行径限度、生成反设事实、长视界记念、长视频生成、千般环境、3D结构、物体交互、复杂变装动画、NPC、物理、烟雾、光影、快速原型联想方面的后果与上风。蒸馏版块赞助及时交互,但运行时的视觉质地会镌汰些。
输入着实寰球的相片后,它也能很好模拟一些物理章程,比如可模拟风中摇曳的草或河中流动的水。
一、超强空间记念智商,模拟着实寰球环境
此前寰球模子在很猛进程上局限于建模狭隘的鸿沟。Genie 1引入了一种生成千般2D寰球的范例。Genie 2则进一步在通用性上取得发挥,不错生成种类浩荡的丰富3D寰球。
以下是与Genie 2互动的一些示例视频。模子会使用文生图模子Imagen 3生成的单个图像,按照教唆词生成一个可交互的3D寰球。东谈主或agent进行键鼠操作,进入这个新创建的寰球并与之互动。Genie 2不错生成长达1分钟的一致寰球,大多数示例执续10-20秒(本文将部分视频示例转成gif动图并只截取片断,好意思满视频请到原博客著作检察)。
1、智能反映键盘按键操作
Genie 2不错智能地反映键盘上的按键操作,正确地识别并迁移变装。比如下图中的几个示例,模子必须能弄闪现方针按键对应要迁移的是机器东谈主,而不是画面中的树、云等其他物体。
树林里的一个可儿的东谈主形机器东谈主。
古埃及的东谈主形机器东谈主。
紫色星球上的机器东谈主的第一视角。
大城市阁楼公寓中的机器东谈主的第一视角。
2、生成反设事实
Genie 2不错从并吞肇始帧生成不同的轨迹,为磨砺agent模拟不共事实的体验。在每一转中,每个视频齐从并吞帧初始,但东谈主类玩家弃取的手脚不同,生成的画面本体也反映不同。
3、长视界记念
Genie 2大概记取视线中不再存在的寰球部分,并在它们再次可见时准确呈现。
4、使用重生成的本体生成长视频
Genie 2可动态生成新的合理本体,并在长达1分钟的时辰内督察一致的寰球。
5、千般化环境
Genie 2可创建不同的视角,举例第一视角、等距视图或第三视角驾驶视频。
6、3D结构
Genie 2会创建复杂的3D视觉场景。
7、模拟对象相互作用
Genie 2能模拟千般物体的相互作用,举例爆破气球、通达门和射击火药桶。
8、变装动画
Genie 2学习了怎样为不同类型的变装制作动画来奉行不同的行径。
9、NPC
Genie 2大概模拟其他agent,以致与它们进行复杂的交互。
10、物理
Genie 2模拟水后果。
11、烟雾
Genie 2模拟烟雾后果。
12、重力
Genie 2模拟重力。
13、灯光
Genie 2模拟光点和定向照明。
14、反射
Genie 2模拟反射、喷雾减光和彩色灯光。
二、通晓物理寰球相反,可将观念图滚动成交互式环境
Genie 2模子可快速创建千般交互体验的原型。举例用Imagen 3生成不同图像,让Genie 2生成模拟纸飞机、龙、鹰、降落伞遨游的视频。不错看到Genie 2生成的视频大概通晓并模拟出它们遨游的相反。
观念艺术和绘制也不错被Genie 2滚动成统统交互式环境,以便艺术家、联想师能快速制作商议环境观念的原型。
三、AI agent也能玩,为具身智能提供绝佳磨砺场
Genie 2可快速为AI agent创建丰富千般的环境,从而生成agent在磨砺工夫未见过的评估任务。
举例,Google DeepMind与游戏设立商谐和设立了SIMA agent。SIMA agent被联想成通过死守天然话语指示来完成一系列3D游戏寰球中的任务,因此不错在Genie 2合成的、未见过的环境奉行指示。
输入底下Imagen 3生成的第三开放寰球探索游戏图,Genie 2可生成一个带有两扇门(一扇是红门,一扇是蓝门)的3D环境。
然后向SIMA agent提议通达某扇门的指示,Genie 2则能生成稳妥条目的画面。
在这个示例中,SIMA通过键盘和鼠标输入限度变装,而Genie 2生成游戏帧。
也不错使用SIMA来匡助评估Genie 2的功能。通过斥地SIMA环视四周、探索房屋背面等,测试Genie 2生成一致环境的智商。
再比如阐发底下这张图来生成视频。
输入不同教唆词“上楼”、“去有植物的方位”、“走中间门”,Genie 2会生成对应的不同视频画面。
天然这项商议仍处于早期阶段,agent和环境生成智商齐还有很大的革命空间,但Google DeepMind笃信Genie 2是惩处安全磨砺具体agent的结构性问题的阶梯,同期落幕迈向AGI所需的广度和通用性。
结语:寰球模子,AI鸿沟的下一件大事
游戏是安全测试和推动AI智商的理念念环境。磨砺更通器具身agent的传统瓶颈在于穷乏实足丰富和千般化的磨砺环境。
Google DeepMind正将越来越多资源干涉于寰球模子商议。Genie 2展示了基础寰球模子在创建千般化3D环境、定制交互式游戏场景、加快agent商议等方面的后劲,可让畴昔的Agent在无穷的新寰球中摄取磨砺和评估。
该商议方针尚处于早期阶段,Google DeepMind狡计在通用性和一致性方面链接革命Genie的寰球生成智商。
与SIMA相同,其商议死力于构建更通用的AI系统和agent,使其大概通晓和安全地奉行千般任务,从而匡助在线和施行寰球中的东谈主们。
Google DeepMind还放了一些原理的“彩蛋”:Genie 2生成出一些奇怪视频,比如莫得弃取行径的情况下一个阴魂出当前花圃,在雪场的东谈主物变装比较滑雪更爱跑酷、一个魔法球把周遭炸成灰。
开端:Google DeepMind