Пощёчина BigTech: крошечная страна создала ИИ мощнее ChatGPT и отдаёт его даром
NewsMakerЭтот суперкомпьютер создавали для атомных расчётов. Но он только что взорвал индустрию ИИ.
Швейцария представила первую пару полностью открытых больших языковых моделей (LLM), созданных на суперкомпьютере Alps — одной из самых мощных вычислительных машин в Европе и в мире. Эти модели стали результатом совместной работы специалистов из ETH Zürich и Швейцарского федерального технологического института в Лозанне и были впервые анонсированы на Международном саммите по открытой разработке LLM в Женеве.
Основной задачей суперкомпьютеров традиционно были высокоточные вычисления, в том числе в сфере науки, исследований и поддержки ядерных арсеналов. Однако, по мере того, как чипы начинают всё активнее поддерживать вычисления с пониженной точностью, такие системы всё чаще используются и для обучения нейросетей. Alps — яркий пример такого перехода.
Суперкомпьютер Alps занимает третье место среди самых мощных в Европе и восьмое — в мире согласно рейтингу Top500. Его архитектура оптимизирована как для традиционных задач высокопроизводительных вычислений, так и для масштабного обучения ИИ. Он стал одним из первых суперкомпьютеров, основанных на суперчипах Nvidia Grace-Hopper GH200. Каждый из этих чипов сочетает 72-ядерный процессор Grace на базе Arm Neoverse V2 с графическим ускорителем H100, связанным через сверхбыструю шину NVLink-C2C с пропускной способностью 900 ГБ/с.
Суммарно Alps насчитывает более 10 тысяч таких суперчипов, размещённых на 2688 вычислительных платах, связанных между собой с помощью межсоединений Slingshot-11 от HPE Cray. Благодаря этому система достигает 42 эксафлопс производительности при использовании формата FP8 с разреженными данными, или около 21 эксафлопс в более точном формате BF16.
Хотя H100 от Nvidia уже давно применяется для обучения ИИ, подавляющее большинство решений до сих пор использовало формат HGX с восемью GPU на узел, а не GH200. В этом плане Alps выделяется, как и недавно запущенные Jupiter в Германии и Isambard в Великобритании — оба также построены на GH200.
По словам Томаса Шультесса, руководителя Швейцарского национального центра суперкомпьютеров и профессора ETH Zürich, реализация этих моделей стала возможна только благодаря стратегическим инвестициям в Alps — суперкомпьютер, специально построенный под нужды ИИ.
Новые модели пока не получили официальных названий, но известно, что они будут представлены в двух конфигурациях — с 8 и 70 миллиардами параметров. Обучение проходило на 15 триллионах токенов, при этом около 40% датасета составляют тексты на языках, отличных от английского — таких более тысячи.
Авторы проекта подчёркивают полную открытость своей разработки. В отличие от подхода крупных технологических компаний, таких как Microsoft, Google и Meta, они намерены опубликовать не только веса и архитектуру моделей, но и весь исходный код, а также раскрыть данные, на которых велось обучение. По мнению профессора EPFL Мартина Ягги, такая открытость призвана стимулировать инновации не только в Швейцарии, но и по всей Европе, а также в рамках международных проектов.
С научной точки зрения важной составляющей проекта является прозрачность. Иманоль Шлаг из ETH AI Center считает, что это основа для создания доверительных приложений и изучения потенциальных рисков, связанных с искусственным интеллектом.
Интересно, что для достижения высоких результатов в большинстве задач и тестов по общим знаниям команде не пришлось обходить механизмы защиты от автоматического сбора данных в интернете — их соблюдение, как утверждается, никак не отразилось на итоговом качестве моделей.
Ожидается, что новые LLM поступят в открытый доступ уже летом. Распространяться они будут по свободной лицензии Apache 2.0.

Швейцария представила первую пару полностью открытых больших языковых моделей (LLM), созданных на суперкомпьютере Alps — одной из самых мощных вычислительных машин в Европе и в мире. Эти модели стали результатом совместной работы специалистов из ETH Zürich и Швейцарского федерального технологического института в Лозанне и были впервые анонсированы на Международном саммите по открытой разработке LLM в Женеве.
Основной задачей суперкомпьютеров традиционно были высокоточные вычисления, в том числе в сфере науки, исследований и поддержки ядерных арсеналов. Однако, по мере того, как чипы начинают всё активнее поддерживать вычисления с пониженной точностью, такие системы всё чаще используются и для обучения нейросетей. Alps — яркий пример такого перехода.
Суперкомпьютер Alps занимает третье место среди самых мощных в Европе и восьмое — в мире согласно рейтингу Top500. Его архитектура оптимизирована как для традиционных задач высокопроизводительных вычислений, так и для масштабного обучения ИИ. Он стал одним из первых суперкомпьютеров, основанных на суперчипах Nvidia Grace-Hopper GH200. Каждый из этих чипов сочетает 72-ядерный процессор Grace на базе Arm Neoverse V2 с графическим ускорителем H100, связанным через сверхбыструю шину NVLink-C2C с пропускной способностью 900 ГБ/с.
Суммарно Alps насчитывает более 10 тысяч таких суперчипов, размещённых на 2688 вычислительных платах, связанных между собой с помощью межсоединений Slingshot-11 от HPE Cray. Благодаря этому система достигает 42 эксафлопс производительности при использовании формата FP8 с разреженными данными, или около 21 эксафлопс в более точном формате BF16.
Хотя H100 от Nvidia уже давно применяется для обучения ИИ, подавляющее большинство решений до сих пор использовало формат HGX с восемью GPU на узел, а не GH200. В этом плане Alps выделяется, как и недавно запущенные Jupiter в Германии и Isambard в Великобритании — оба также построены на GH200.
По словам Томаса Шультесса, руководителя Швейцарского национального центра суперкомпьютеров и профессора ETH Zürich, реализация этих моделей стала возможна только благодаря стратегическим инвестициям в Alps — суперкомпьютер, специально построенный под нужды ИИ.
Новые модели пока не получили официальных названий, но известно, что они будут представлены в двух конфигурациях — с 8 и 70 миллиардами параметров. Обучение проходило на 15 триллионах токенов, при этом около 40% датасета составляют тексты на языках, отличных от английского — таких более тысячи.
Авторы проекта подчёркивают полную открытость своей разработки. В отличие от подхода крупных технологических компаний, таких как Microsoft, Google и Meta, они намерены опубликовать не только веса и архитектуру моделей, но и весь исходный код, а также раскрыть данные, на которых велось обучение. По мнению профессора EPFL Мартина Ягги, такая открытость призвана стимулировать инновации не только в Швейцарии, но и по всей Европе, а также в рамках международных проектов.
С научной точки зрения важной составляющей проекта является прозрачность. Иманоль Шлаг из ETH AI Center считает, что это основа для создания доверительных приложений и изучения потенциальных рисков, связанных с искусственным интеллектом.
Интересно, что для достижения высоких результатов в большинстве задач и тестов по общим знаниям команде не пришлось обходить механизмы защиты от автоматического сбора данных в интернете — их соблюдение, как утверждается, никак не отразилось на итоговом качестве моделей.
Ожидается, что новые LLM поступят в открытый доступ уже летом. Распространяться они будут по свободной лицензии Apache 2.0.