Эти звуки вы никогда не слышали: Nvidia представила ИИ-модель для генерации аудио

Nvidia продемонстрировала ИИ-модель для создания музыки и аудио. Она может изменять голоса и генерировать новые звуки.

Технология Fugatto предназначена для создателей музыки, фильмов и видеоигр.

Нейросеть способна генерировать звуковые эффекты и музыку по промптам. Например, можно создать «аудио лающей как собака трубы». В качестве другого примера назван звук «глубоких, грохочущих басовых импульсов в сочетании с периодическим высокочастотным цифровым щебетом — словно звук просыпающейся огромной разумной машины».

Отличительной особенностью решения Nvidia является способность анализировать и изменять существующий звук. Например, она может сыгранную на пианино мелодию преобразовать в пение человека.

«Если мы подумаем о синтетическом аудио за последние 50 лет, то сейчас музыка звучит иначе благодаря компьютерам, синтезаторам. Я думаю, что генеративный ИИ привнесет новые возможности в музыку, видеоигры и обычным людям, которые хотят создавать что-то новое», — прокомментировал вице-президент по исследованиям в области глубокого обучения Nvidia Брайан Катандзаро.

Новая модель компании настроена на базе данных из открытых источников. Фирма обдумывает варианты ее представления общественности.

«Любая генеративная технология всегда несет в себе некоторые риски, потому что люди могут использовать ее для создания вещей, которые мы бы не хотели, чтобы они создавали», — подчеркнул Катандзаро.

Напомним, Google DeepMind анонсировала разработку технологии на базе искусственного интеллекта для создания саундтреков к видео.