免费

Genie 3-首个可实时交互通用世界模型

8月6日,谷歌DeepMind宣布推出通用世界模型Genie 3首个可实时交互世界模型来了。

它可以基于文本提示,Genie 3可以允许用户以每秒24帧的速度,以720p的分辨率生成长达数分钟的交互式3D环境,Genie 2仅能生成10到20秒。具备模拟世界物理特性、模拟自然世界、生成动画和小说建模、超越地理时间限制生成内容的能力

如果说大语言模型(LLM)让AI学会了“思考”,那么Genie 3则让AI真正“看见”并“理解”世界。

Genie 3 是谷歌DeepMind团队开发的通用世界模型(General World Model),它的核心能力是模拟现实世界的物理规律,并基于文本、图像或视频输入,生成高度逼真的动态3D场景。

简单来说,你可以告诉它:

  • “生成一个阳光明媚的海滩,海浪拍打着岸边,几只海鸥在空中盘旋。”
  • “模拟一场森林火灾,火焰随风蔓延,动物四散逃离。”

几秒内,Genie 3就能构建出一个符合物理规则的虚拟世界,你可以像玩游戏一样在其中自由探索。

通用世界模型Genie 3属性

  1. 超真实的物理模拟
    • 过去的AI生成3D世界往往只是“看起来像”,但Genie 3能精确模拟重力、流体、碰撞等物理现象,让虚拟世界的行为逻辑接近现实。
    • 例如,如果你让Genie 3生成“一场暴雨”,它不仅会渲染雨滴,还会模拟积水流动、泥土湿润的变化。
  2. 一句话生成可玩世界
    • 类似ChatGPT用文字生成文章,Genie 3可以用自然语言直接创建3D环境,大幅降低虚拟世界的构建门槛。
    • 游戏开发者、影视制作人甚至教育工作者,未来可能只需要输入几句话,就能快速搭建复杂的虚拟场景。
  3. 比游戏引擎更智能
    • 传统游戏引擎(如Unity、Unreal)需要人工编写规则,而Genie 3能自动理解世界运作方式,并动态调整。
    • 例如,如果你在Genie 3的世界里推倒一堆积木,它会像现实一样坍塌,而不是像传统游戏里预设好的动画。

谷歌DeepMind的博客中也提到了Genie 3目前的局限性:

行动空间有限:尽管可触发的世界事件允许进行广泛的环境干预,但它们不一定由Agent本身执行,Agent可直接执行的操作范围目前受到限制;

与其他Agent的交互和模拟:准确建模共享环境中多个独立Agent之间的复杂交互仍然是一个持续的研究挑战;

准确表示真实世界的位置:Genie 3目前无法以完美的地理精度模拟真实世界的位置;

文本渲染:通常只有在输入世界描述中提供时才会生成清晰易读的文本;

交互时长有限:该模型目前支持几分钟的持续交互,无法支持长达数小时的交互。在此基础上,谷歌DeepMind宣布Genie 3以有限研究预览版的形式发布,使其能够从其他学者处收集重要的反馈和提供跨学科视角。

相关链接

博客:https://x.com/GoogleDeepMind/status/1952732150928724043

官网地址:https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/(尚未正式发布,但可关注动态)