Пощёчина BigTech: крошечная страна создала ИИ мощнее ChatGPT и отдаёт его даром

Этот суперкомпьютер создавали для атомных расчётов. Но он только что взорвал индустрию ИИ.


67nqsba2t79crqklfrr6ldnb3slpsbsk.jpg


Швейцария представила первую пару полностью открытых больших языковых моделей (LLM), созданных на суперкомпьютере Alps — одной из самых мощных вычислительных машин в Европе и в мире. Эти модели стали результатом совместной работы специалистов из ETH Zürich и Швейцарского федерального технологического института в Лозанне и были впервые анонсированы на Международном саммите по открытой разработке LLM в Женеве.

Основной задачей суперкомпьютеров традиционно были высокоточные вычисления, в том числе в сфере науки, исследований и поддержки ядерных арсеналов. Однако, по мере того, как чипы начинают всё активнее поддерживать вычисления с пониженной точностью, такие системы всё чаще используются и для обучения нейросетей. Alps — яркий пример такого перехода.

Суперкомпьютер Alps занимает третье место среди самых мощных в Европе и восьмое — в мире согласно рейтингу Top500. Его архитектура оптимизирована как для традиционных задач высокопроизводительных вычислений, так и для масштабного обучения ИИ. Он стал одним из первых суперкомпьютеров, основанных на суперчипах Nvidia Grace-Hopper GH200. Каждый из этих чипов сочетает 72-ядерный процессор Grace на базе Arm Neoverse V2 с графическим ускорителем H100, связанным через сверхбыструю шину NVLink-C2C с пропускной способностью 900 ГБ/с.

Суммарно Alps насчитывает более 10 тысяч таких суперчипов, размещённых на 2688 вычислительных платах, связанных между собой с помощью межсоединений Slingshot-11 от HPE Cray. Благодаря этому система достигает 42 эксафлопс производительности при использовании формата FP8 с разреженными данными, или около 21 эксафлопс в более точном формате BF16.

Хотя H100 от Nvidia уже давно применяется для обучения ИИ, подавляющее большинство решений до сих пор использовало формат HGX с восемью GPU на узел, а не GH200. В этом плане Alps выделяется, как и недавно запущенные Jupiter в Германии и Isambard в Великобритании — оба также построены на GH200.

По словам Томаса Шультесса, руководителя Швейцарского национального центра суперкомпьютеров и профессора ETH Zürich, реализация этих моделей стала возможна только благодаря стратегическим инвестициям в Alps — суперкомпьютер, специально построенный под нужды ИИ.

Новые модели пока не получили официальных названий, но известно, что они будут представлены в двух конфигурациях — с 8 и 70 миллиардами параметров. Обучение проходило на 15 триллионах токенов, при этом около 40% датасета составляют тексты на языках, отличных от английского — таких более тысячи.

Авторы проекта подчёркивают полную открытость своей разработки. В отличие от подхода крупных технологических компаний, таких как Microsoft, Google и Meta, они намерены опубликовать не только веса и архитектуру моделей, но и весь исходный код, а также раскрыть данные, на которых велось обучение. По мнению профессора EPFL Мартина Ягги, такая открытость призвана стимулировать инновации не только в Швейцарии, но и по всей Европе, а также в рамках международных проектов.

С научной точки зрения важной составляющей проекта является прозрачность. Иманоль Шлаг из ETH AI Center считает, что это основа для создания доверительных приложений и изучения потенциальных рисков, связанных с искусственным интеллектом.

Интересно, что для достижения высоких результатов в большинстве задач и тестов по общим знаниям команде не пришлось обходить механизмы защиты от автоматического сбора данных в интернете — их соблюдение, как утверждается, никак не отразилось на итоговом качестве моделей.

Ожидается, что новые LLM поступят в открытый доступ уже летом. Распространяться они будут по свободной лицензии Apache 2.0.