ByteDance представила ИИ-«мозг» для роботов
CryptoWatcher
Владеющая TikTok компания ByteDance представила систему, которая выполняет роль «мозга» для роботов. Она позволяет делать бытовые задачи вроде развешивания одежды или уборки со стола.
GR-3 — большая языковая модель типа «зрение-язык-действие», которая дает возможность ботам следовать командам на естественном языке и выполнять универсальные задачи с незнакомыми предметами. Они могут работать в новых условиях или с абстрактными понятиями, связанными с размерами и пространственными отношениями.
В опубликованном на сайте видеоролике продемонстрировано, как лабораторный двурукий робот ByteMini может вставлять вешалку в рубашку и размещать ее на стойке.
В отдельном техническом отчете команда сообщила, что бот справляется с одеждой с короткими рукавами, хотя «все предметы в обучающих данных были с длинными».
Благодаря GR-3 робот может выполнять команды по выбору конкретной вещи из нескольких и размещать ее в заданное место.
Система способна распознавать объект не только по названию, но и по размеру (например, «большая тарелка») или по пространственному признаку (например, «слева»). Она может полностью выполнить задачу «убрать обеденный стол» по единственной команде.
Для обучения модели ByteDance использовала многокомпонентный подход, включающий:
- совместное обучение на больших массивах данных в формате «изображение-текст»;
- дообучение на информации о траекториях действий человека, собранных с помощью VR-устройств;
- настройка методом подражания на данных о движениях андроида.
Напомним, в январе стартап Perplexity AI заявил о намерении приобрести американский TikTok. Фирма отправила ByteDance предложение объединить Perplexity, TikTok U.S. и новых партнеров по капиталу в единую юридическую структуру.