Microsoft создала универсальную нейросеть Kosmos-1
CryptoWatcher
Компания Microsoft представила нейросеть Kosmos-1, которая объединяет в качестве входных данных текст, изображения, аудио- и видеоконтент.
Исследователи назвали систему «мультимодальной большой языковой моделью». По их мнению, подобные алгоритмы станут основой общего ИИ (AGI), который сможет выполнять задачи на уровне человека.
Согласно примерам из статьи, Kosmos-1 может:
- анализировать изображения и отвечать на вопросы о них;
- читать текст с картинок;
- создавать подписи к изображениям;
- проходить визуальный IQ-тест с точностью 22–26%.

Microsoft обучила Kosmos-1 на данных из интернета, в том числе на англоязычном текстовом ресурсе объемом 800 ГБ The Pile и веб-архиве Common Crawl. После тренировки исследователи оценили способности модели в нескольких тестах:
- понимание и генерация языка;
- классификацию текста без оптического распознавания символов;
- субтитры к изображениям;
- визуальные ответы на вопросы;
- ответы на вопросы веб-страницы;
- zero-shot классификация изображений.

По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели. В ближайшее время исследователи планируют опубликовать исходный код проекта на GitHub.
Напомним, в январе Microsoft представила имитатор человеческих голосов по короткому образцу VALL-E.