От текста до произведения искусства — новая эра творчества с OpenAI

ИИ OpenAI создает визуальные шедевры из текстовых запросов.

В октябре OpenAI представила широкой публике своё новейшее творение в области искусственного интеллекта — генератор изображений DALL-E 3, доступный подписчикам ChatGPT. Этот инструмент способен создавать изображения по текстовым запросам, демонстрируя удивительный уровень детализации и верности заданному запросу. Технологии, подобные DALL-E, долгое время были лишь предметом научной фантастики, но теперь они становятся реальностью и меняют представление о творческом процессе.

DALL-E 3 использует технику, известную как латентная диффузия, для создания изображений на основе текстовых подсказок. Этот метод позволяет извлекать изображения из шума, прогрессивно формируя картинку в соответствии с запросом пользователя. Также DALL-E 3 работает в тандеме с ChatGPT, что делает процесс создания искусственного искусства интерактивным и диалоговым: пользователь описывает, что хочет увидеть, а система генерирует изображения.

Возможности DALL-E 3 не ограничиваются одним стилем: он может представлять один и тот же объект в различных форматах и стилях, от фотографий и иллюстраций до масляных живописей и векторной графики. Кроме того, пользователь может изменять соотношение сторон генерируемого изображения.

Особенностью DALL-E 3 является использование искусственного интеллекта для самоулучшения. В основе обучения модели лежат синтетические подписи к изображениям, созданные с помощью GPT-4V. Благодаря этому подходу, описания становятся более точными и детализированными, что повышает способность модели точно следовать текстовым подсказкам.

Таким образом, DALL-E 3 представляет собой значительный шаг вперед в области искусственного интеллекта, предлагая новые возможности для творчества и изменяя представление о будущем медиаконтента.