ByteDance представила ИИ-«мозг» для роботов

robodogs_cape_can-min.webp

Владеющая TikTok компания ByteDance представила систему, которая выполняет роль «мозга» для роботов. Она позволяет делать бытовые задачи вроде развешивания одежды или уборки со стола.

GR-3 — большая языковая модель типа «зрение-язык-действие», которая дает возможность ботам следовать командам на естественном языке и выполнять универсальные задачи с незнакомыми предметами. Они могут работать в новых условиях или с абстрактными понятиями, связанными с размерами и пространственными отношениями.

В опубликованном на сайте видеоролике продемонстрировано, как лабораторный двурукий робот ByteMini может вставлять вешалку в рубашку и размещать ее на стойке.



В отдельном техническом отчете команда сообщила, что бот справляется с одеждой с короткими рукавами, хотя «все предметы в обучающих данных были с длинными».

Благодаря GR-3 робот может выполнять команды по выбору конкретной вещи из нескольких и размещать ее в заданное место.

Система способна распознавать объект не только по названию, но и по размеру (например, «большая тарелка») или по пространственному признаку (например, «слева»). Она может полностью выполнить задачу «убрать обеденный стол» по единственной команде.

Для обучения модели ByteDance использовала многокомпонентный подход, включающий:

  • совместное обучение на больших массивах данных в формате «изображение-текст»;
  • дообучение на информации о траекториях действий человека, собранных с помощью VR-устройств;
  • настройка методом подражания на данных о движениях андроида.
«Мы надеемся, что GR-3 станет шагом к созданию универсальных роботов, способных помогать людям в повседневной жизни», — говорится в заявлении команды.

Напомним, в январе стартап Perplexity AI заявил о намерении приобрести американский TikTok. Фирма отправила ByteDance предложение объединить Perplexity, TikTok U.S. и новых партнеров по капиталу в единую юридическую структуру.