Прорыв в архитектуре ИИ вытаскивает со дна рынка видеокарты из супермаркета
NewsMakerMoE и квантование сделали дешевые видеокарты угрозой для дата-центров.
Пока крупные языковые модели становятся умнее, они одновременно усложняются в эксплуатации. Это создаёт проблемы, особенно в тех странах, где доступ к мощным американским чипам ограничен — например, в Китае. Однако даже за пределами таких регионов растёт интерес к способам удешевления эксплуатации ИИ. Всё чаще разработчики используют архитектуры с «смесью экспертов» (MoE) и технологии сжатия, чтобы снизить требования к аппаратному обеспечению и стоимости запуска больших языковых моделей (LLM).
Хотя первые модели MoE, такие как Mixtral от Mistral AI, появились давно, только в течение последнего года они начали активно использоваться на практике. Сегодня подобные архитектуры применяются в моделях от Microsoft, Google, IBM, Meta*, DeepSeek и Alibaba, причём все они опираются на принцип, предложенный ещё в начале 90-х годов.
Суть MoE в том, что модель состоит из множества меньших подсетей — «экспертов». Вместо того чтобы активировать все параметры, как это происходит в традиционных «плотных» моделях, система подключает только те эксперты, которые нужны для выполнения конкретной задачи. Например, DeepSeek V3 использует 256 маршрутизируемых экспертов и одного общего, но при генерации текста активны лишь восемь маршрутизируемых и один общий. Это даёт значительный прирост эффективности: меньше операций, меньше пропускной нагрузки и меньше затрат на обслуживание.
В то же время качество MoE-моделей может немного уступать плотным аналогам. Например, модель Qwen3-30B-A3B от Alibaba оказалась чуть слабее по результатам бенчмарков, чем плотная версия Qwen3-32B. Однако при этом новая архитектура требует существенно меньше пропускной способности памяти: активные параметры в MoE — лишь часть от общего объёма, что позволяет обходиться без дорогостоящей HBM-памяти.
Для наглядности стоит сравнить модели Meta* Llama 3.1 405B и Llama 4 Maverick. Первая — плотная модель, требующая более 405 ГБ памяти и около 20 ТБ/с пропускной способности, чтобы выдавать 50 токенов в секунду в 8-битной версии. При этом даже топовая система на базе Nvidia HGX H100 — стоимостью от 300 тысяч долларов — обеспечивает 26,8 ТБ/с и впритык покрывает эти потребности. Для запуска 16-битной версии модели таких систем понадобилось бы минимум две.
А вот Llama 4 Maverick — модель MoE с аналогичным объёмом памяти, но активных параметров у неё только 17 миллиардов. Этого достаточно, чтобы получить ту же производительность при пропускной способности менее 1 ТБ/с. На той же аппаратной базе такая модель будет работать в разы быстрее. Или, если скорость не критична, можно запускать её на более дешёных решениях с GDDR6/7 или даже DDR — например, на новых CPU-серверах от Intel.
Собственно, Intel уже продемонстрировала такую возможность: двухсокетная платформа на базе Xeon 6 с высокоскоростной памятью MCRDIMM показала скорость 240 токенов в секунду при средней задержке менее 100 мс. Этого достаточно для одновременной работы с моделью порядка двух десятков пользователей.
Тем не менее MoE снижает лишь требования к пропускной способности, но не к объёму памяти. Даже 8-битная Llama 4 Maverick требует более 400 ГБ видеопамяти. И здесь на сцену выходит вторая ключевая технология — квантизация. Её суть — в сжатии весов модели с сохранением точности. Переход с 16 до 8 бит почти не влияет на качество, а сжатие до 4 бит уже требует компромиссов. Некоторые разработчики, как DeepSeek, начали тренировать модели сразу в FP8, что позволяет избежать проблем при постобработке.
Наряду с этим применяются и методы обрезки (pruning) — удаление лишних или незначимых весов. Nvidia активно использует эту практику, выпуская урезанные версии Llama 3, и одной из первых реализовала поддержку FP8 и FP4, которые снижают требования к памяти и ускоряют вычисления. AMD, в свою очередь, готовит чипы с поддержкой FP4 уже в следующем месяце.
Google в апреле показала, как можно добиться 4-кратного сжатия своих моделей Gemma 3 с помощью квантизации с учётом обучения (QAT). При этом качество почти не пострадало, а потери по перплексии сократились на 54%. Отдельные подходы, такие как Bitnet, идут ещё дальше — сжимая модели до 1,58 бит на параметр, что позволяет снизить их объём в 10 раз.
В сочетании MoE и квантизации модели становятся гораздо менее прожорливыми — и по памяти, и по пропускной способности. Это особенно актуально в эпоху подорожавших решений на Blackwell Ultra и ограничений на экспорт чипов. Даже если одна из технологий применяется отдельно, она уже способна серьёзно удешевить запуск крупных моделей и сделать их доступными вне дата-центров.
Правда, остаётся ещё один вопрос: а есть ли от всего этого польза? По данным опроса IBM, лишь 25% проектов с ИИ действительно оправдали инвестиции. Остальные — пока нет.
* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.

Пока крупные языковые модели становятся умнее, они одновременно усложняются в эксплуатации. Это создаёт проблемы, особенно в тех странах, где доступ к мощным американским чипам ограничен — например, в Китае. Однако даже за пределами таких регионов растёт интерес к способам удешевления эксплуатации ИИ. Всё чаще разработчики используют архитектуры с «смесью экспертов» (MoE) и технологии сжатия, чтобы снизить требования к аппаратному обеспечению и стоимости запуска больших языковых моделей (LLM).
Хотя первые модели MoE, такие как Mixtral от Mistral AI, появились давно, только в течение последнего года они начали активно использоваться на практике. Сегодня подобные архитектуры применяются в моделях от Microsoft, Google, IBM, Meta*, DeepSeek и Alibaba, причём все они опираются на принцип, предложенный ещё в начале 90-х годов.
Суть MoE в том, что модель состоит из множества меньших подсетей — «экспертов». Вместо того чтобы активировать все параметры, как это происходит в традиционных «плотных» моделях, система подключает только те эксперты, которые нужны для выполнения конкретной задачи. Например, DeepSeek V3 использует 256 маршрутизируемых экспертов и одного общего, но при генерации текста активны лишь восемь маршрутизируемых и один общий. Это даёт значительный прирост эффективности: меньше операций, меньше пропускной нагрузки и меньше затрат на обслуживание.
В то же время качество MoE-моделей может немного уступать плотным аналогам. Например, модель Qwen3-30B-A3B от Alibaba оказалась чуть слабее по результатам бенчмарков, чем плотная версия Qwen3-32B. Однако при этом новая архитектура требует существенно меньше пропускной способности памяти: активные параметры в MoE — лишь часть от общего объёма, что позволяет обходиться без дорогостоящей HBM-памяти.
Для наглядности стоит сравнить модели Meta* Llama 3.1 405B и Llama 4 Maverick. Первая — плотная модель, требующая более 405 ГБ памяти и около 20 ТБ/с пропускной способности, чтобы выдавать 50 токенов в секунду в 8-битной версии. При этом даже топовая система на базе Nvidia HGX H100 — стоимостью от 300 тысяч долларов — обеспечивает 26,8 ТБ/с и впритык покрывает эти потребности. Для запуска 16-битной версии модели таких систем понадобилось бы минимум две.
А вот Llama 4 Maverick — модель MoE с аналогичным объёмом памяти, но активных параметров у неё только 17 миллиардов. Этого достаточно, чтобы получить ту же производительность при пропускной способности менее 1 ТБ/с. На той же аппаратной базе такая модель будет работать в разы быстрее. Или, если скорость не критична, можно запускать её на более дешёных решениях с GDDR6/7 или даже DDR — например, на новых CPU-серверах от Intel.
Собственно, Intel уже продемонстрировала такую возможность: двухсокетная платформа на базе Xeon 6 с высокоскоростной памятью MCRDIMM показала скорость 240 токенов в секунду при средней задержке менее 100 мс. Этого достаточно для одновременной работы с моделью порядка двух десятков пользователей.
Тем не менее MoE снижает лишь требования к пропускной способности, но не к объёму памяти. Даже 8-битная Llama 4 Maverick требует более 400 ГБ видеопамяти. И здесь на сцену выходит вторая ключевая технология — квантизация. Её суть — в сжатии весов модели с сохранением точности. Переход с 16 до 8 бит почти не влияет на качество, а сжатие до 4 бит уже требует компромиссов. Некоторые разработчики, как DeepSeek, начали тренировать модели сразу в FP8, что позволяет избежать проблем при постобработке.
Наряду с этим применяются и методы обрезки (pruning) — удаление лишних или незначимых весов. Nvidia активно использует эту практику, выпуская урезанные версии Llama 3, и одной из первых реализовала поддержку FP8 и FP4, которые снижают требования к памяти и ускоряют вычисления. AMD, в свою очередь, готовит чипы с поддержкой FP4 уже в следующем месяце.
Google в апреле показала, как можно добиться 4-кратного сжатия своих моделей Gemma 3 с помощью квантизации с учётом обучения (QAT). При этом качество почти не пострадало, а потери по перплексии сократились на 54%. Отдельные подходы, такие как Bitnet, идут ещё дальше — сжимая модели до 1,58 бит на параметр, что позволяет снизить их объём в 10 раз.
В сочетании MoE и квантизации модели становятся гораздо менее прожорливыми — и по памяти, и по пропускной способности. Это особенно актуально в эпоху подорожавших решений на Blackwell Ultra и ограничений на экспорт чипов. Даже если одна из технологий применяется отдельно, она уже способна серьёзно удешевить запуск крупных моделей и сделать их доступными вне дата-центров.
Правда, остаётся ещё один вопрос: а есть ли от всего этого польза? По данным опроса IBM, лишь 25% проектов с ИИ действительно оправдали инвестиции. Остальные — пока нет.
* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.