Genie 3-首个可实时交互通用世界模型

8月6日，谷歌DeepMind宣布推出通用世界模型 Genie 3，首个可实时交互世界模型来了。

它可以基于文本提示，Genie 3可以允许用户以每秒24帧的速度，以720p的分辨率生成长达数分钟的交互式3D环境，Genie 2仅能生成10到20秒。具备模拟世界物理特性、模拟自然世界、生成动画和小说建模、超越地理时间限制生成内容的能力

如果说大语言模型（LLM）让AI学会了“思考”，那么Genie 3则让AI真正“看见”并“理解”世界。

Genie 3 是谷歌DeepMind团队开发的通用世界模型（General World Model），它的核心能力是模拟现实世界的物理规律，并基于文本、图像或视频输入，生成高度逼真的动态3D场景。

简单来说，你可以告诉它：

几秒内，Genie 3就能构建出一个符合物理规则的虚拟世界，你可以像玩游戏一样在其中自由探索。

通用世界模型Genie 3属性

超真实的物理模拟
- 过去的AI生成3D世界往往只是“看起来像”，但Genie 3能精确模拟重力、流体、碰撞等物理现象，让虚拟世界的行为逻辑接近现实。
- 例如，如果你让Genie 3生成“一场暴雨”，它不仅会渲染雨滴，还会模拟积水流动、泥土湿润的变化。
一句话生成可玩世界
- 类似ChatGPT用文字生成文章，Genie 3可以用自然语言直接创建3D环境，大幅降低虚拟世界的构建门槛。
- 游戏开发者、影视制作人甚至教育工作者，未来可能只需要输入几句话，就能快速搭建复杂的虚拟场景。
比游戏引擎更智能
- 传统游戏引擎（如Unity、Unreal）需要人工编写规则，而Genie 3能自动理解世界运作方式，并动态调整。
- 例如，如果你在Genie 3的世界里推倒一堆积木，它会像现实一样坍塌，而不是像传统游戏里预设好的动画。

行动空间有限：尽管可触发的世界事件允许进行广泛的环境干预，但它们不一定由Agent本身执行，Agent可直接执行的操作范围目前受到限制；

与其他Agent的交互和模拟：准确建模共享环境中多个独立Agent之间的复杂交互仍然是一个持续的研究挑战；

准确表示真实世界的位置：Genie 3目前无法以完美的地理精度模拟真实世界的位置；

文本渲染：通常只有在输入世界描述中提供时才会生成清晰易读的文本；

交互时长有限：该模型目前支持几分钟的持续交互，无法支持长达数小时的交互。在此基础上，谷歌DeepMind宣布Genie 3以有限研究预览版的形式发布，使其能够从其他学者处收集重要的反馈和提供跨学科视角。