ИИ теперь не просто отвечает — он строит целые миры с физикой, персонажами и дождём по команде

Genie 3 меняет представление о взаимодействии с виртуальной реальностью.

Компания Google DeepMind представила Genie 3 — свою самую продвинутую на сегодняшний день модель симуляции мира. Эта нейросеть способна в реальном времени создавать интерактивные и динамичные виртуальные среды по текстовому описанию. Пользователь может перемещаться по таким сгенерированным мирам с разрешением 720p и частотой 24 кадра в секунду, а визуальная согласованность сохраняется на протяжении нескольких минут.

Разработка Genie 3 опирается на многолетние исследования DeepMind в области обучения ИИ в симулированных пространствах — от игр до робототехники и систем открытого обучения. По сравнению с предыдущими версиями, Genie 1 и 2, новая модель сделала большой шаг вперёд, обеспечив реалистичную навигацию в режиме реального времени и значительно улучшив качество симуляции.

Такие мирогенерирующие модели считаются важным этапом на пути к созданию искусственного общего интеллекта. Они позволяют ИИ-агентам учиться, взаимодействуя с разнообразными средами, понимать, как мир изменяется и как на него влияют их действия.

Главное отличие Genie 3 от более ранних моделей — это интерактивность. Раньше нейросети могли лишь генерировать видео или отдельные кадры, тогда как теперь пользователь может свободно исследовать мир и влиять на него. Модель умеет симулировать физические явления вроде воды и освещения, оживлять персонажей, воспроизводить как реальные, так и вымышленные пейзажи. Генерация работает в авторегрессивном режиме: каждый новый кадр создаётся на основе предыдущих, что обеспечивает визуальную последовательность и логичность происходящего.

Genie 3 обладает визуальной памятью — если пользователь возвращается в уже посещённое место, система восстанавливает его с учётом ранее увиденного, причём память может охватывать до минуты событий. В отличие от таких методов, как NeRF или Gaussian Splatting, Genie 3 не использует заранее просчитанные 3D-модели — она создаёт изображение покадрово, что делает окружение более гибким и откликающимся на действия пользователя.

Кроме того, DeepMind внедрила в модель систему «управляемых событий»: теперь можно не только перемещаться по миру, но и изменять его с помощью текстовых команд — например, вызвать дождь, добавить предметы или заселить мир новыми персонажами. Это расширяет возможности моделирования альтернативных сценариев и помогает ИИ адаптироваться к неожиданным изменениям.

Genie 3 также улучшила стабильность при длительном взаимодействии. Поддержание логичной последовательности позволяет выполнять более сложные действия в течение нескольких минут, что было непросто реализовать: любые ошибки в предыдущих кадрах могли накапливаться и разрушать целостность сцены. Однако новая модель справляется с этой задачей достаточно хорошо, чтобы поддерживать сюжетные и целенаправленные сценарии.

Тем не менее, ограничения пока остаются. Действия самого агента ограничены, а многие изменения в мире производятся лишь по командам пользователя. Сложные взаимодействия между несколькими агентами в одном пространстве всё ещё представляют трудность. Кроме того, модель не может точно воспроизвести реальные географические локации, а текст на объектах читается только в том случае, если он явно прописан в запросе.

Несмотря на эти нюансы, Genie 3 демонстрирует важный сдвиг: ИИ теперь способен не просто наблюдать и реагировать, но и воображать, моделировать и управлять полноценными мирами в реальном времени.