Машины обрели внутренний голос. Последняя грань между искусственным и живым — уничтожена

Следующий шаг — заговоры без нашего участия?

Компания DeepMind , принадлежащая Google, разрабатывает новую технологию для роботов и искусственного интеллекта, которая может заметно ускорить и упростить обучение машин. Речь идет о системе внутреннего монолога, позволяющей ИИ-агентам сопровождать свое восприятие окружающего мира естественным языковым описанием происходящего. Эта технология уже запатентована и может изменить принципы обучения роботов.

Метод, предложенный DeepMind, официально называется внутренняя речь агента для облегчения обучения задачам (intra-agent speech to facilitate task learning). Суть подхода заключается в том, что робот или программный ИИ-агент наблюдает за выполнением какой-либо задачи — например, через видео или изображения — и параллельно проговаривает внутри себя, что он видит. Это своего рода мысленный комментарий: наблюдая за тем, как человек берет чашку, система формулирует фразу человек берет чашку.

Такая форма внутреннего описания помогает связать визуальные данные с конкретными действиями. Это не просто запоминание последовательности движений, а полноценное формирование причинно-следственных связей между наблюдаемым объектом и необходимым действием.

Одно из ключевых преимуществ этой технологии — так называемое обучение с нуля (zero-shot learning). Иными словами, робот сможет выполнять задачи, связанные с ранее незнакомыми предметами или ситуациями, без предварительной тренировки. В привычных системах ИИ обучение на новые объекты требует длительных циклов подготовки данных и вычислительных ресурсов. В данном случае, благодаря внутреннему монологу, система сама формирует языковое описание, что позволяет быстрее соотнести новое визуальное восприятие с подходящими действиями.

Кроме того, как подчеркивает DeepMind, метод снижает требования к памяти и вычислительным мощностям, что особенно важно для автономных или маломощных устройств.

Эта разработка вписывается в более широкие усилия компании по совершенствованию робототехники. Совсем недавно DeepMind представила систему под названием Gemini Robotics On-Device, рассчитанную на работу непосредственно на роботе — без необходимости постоянного подключения к облачным сервисам.

Gemini Robotics On-Device — это компактная версия уже известной модели Gemini Robotics, сочетающей визуальное восприятие и языковые способности. В отличие от стандартной облачной версии, эта модификация работает локально, прямо на устройстве. Такой подход особенно полезен там, где подключение к интернету нестабильно или нежелательно — например, в медицинских учреждениях, где важна конфиденциальность данных.

Несмотря на то, что локальная версия легче и компактнее, она демонстрирует впечатляющие результаты. По данным разработчиков DeepMind, модель способна выполнять задачи из коробки, а для обучения новым действиям ей достаточно 50–100 демонстраций. Это существенно ускоряет адаптацию под конкретного робота и конкретную задачу.

Первоначально модель обучалась на роботе ALOHA, принадлежащем Google, однако впоследствии ее адаптировали и для других платформ. Среди них — гуманоидный робот Apptronik Apollo и манипулятор Franka FR3. Система способна с высокой точностью и плавностью выполнять сложные действия, включая складывание одежды или расстегивание молний.

При необходимости разработчики могут дообучить модель, управляя роботом вручную — это называется телеприсутствием или телеоперацией. Такой гибкий подход позволяет быстро адаптировать ИИ к новым условиям.

DeepMind также предусмотрела возможность тестирования модели в симулированной среде, используя физический движок Multi-Joint dynamics with Contact, либо сразу внедрять ее в реальные роботы.

Однако стоит отметить, что локальная версия Gemini Robotics On-Device пока не оснащена встроенными системами семантической безопасности. В отличие от гибридных или облачных версий, здесь защита от некорректного или потенциально опасного поведения возлагается на разработчиков. DeepMind рекомендует внедрять собственные протоколы безопасности , а на текущем этапе доступа к системе предоставляется ограниченному числу пользователей для проверки рисков при эксплуатации в реальной среде.

Добавление внутренней речи дает роботам дополнительный контекст, позволяя им принимать более обоснованные решения и адаптироваться к незнакомым ситуациям. Это особенно важно для роботов, работающих в динамичных, непредсказуемых условиях, где не всегда возможно заранее подготовить весь набор данных для обучения.

Пока технологии находятся в стадии активного тестирования и совершенствования, но сама концепция внутреннего монолога может стать важным этапом на пути к более самостоятельным и гибким ИИ-системам.

Интересно, что на фоне этих событий DeepMind недавно анонсировала и другое значимое достижение : ИИ-модель, способную прогнозировать влияние конкретных мутаций ДНК на сложнейшие системы, регулирующие активность генов. Это еще один пример того, как лаборатория Google продвигает границы применения ИИ сразу в нескольких отраслях — от биологии до робототехники.