Миллионы токенов? Ерунда. NVIDIA учит ИИ глотать мегатексты и не задыхаться

Helix: добро пожаловать в эпоху без тормозов и амнезии.

Чтобы виртуальный ассистент не зависал при чтении многотомной энциклопедии, нужно не только мощное железо, но и подход, позволяющий быстро обрабатывать огромные объемы данных. Именно над этим работает NVIDIA : компания недавно представила Helix Parallelism — новую технику параллельных вычислений, которая меняет принципы работы языковых моделей с длинным контекстом, и при этом сохраняет мгновенную откликаемость.

Helix создан под архитектуру Blackwell — новое поколение графических процессоров с высокой пропускной способностью и поддержкой формата FP4. Именно эта платформа станет базой для следующего витка масштабируемого ИИ.

Главная задача Helix — не ускорить сами модели, а облегчить работу с длинной памятью. Современные нейросети уже справляются с сотнями миллиардов параметров. Но как заставить их помнить, что было не только пару строк назад, а в начале текста длиной в миллион токенов? Каждый новый элемент, который система генерирует, требует обращения к KV-кэшу — специальной структуре, где хранится вся история.

Вот тут и возникает проблема. Кэш загружается из памяти видеокарты, и при генерации каждого токена модель перечитывает его заново. Это перегружает пропускной канал. Параллельно требуется загрузка весов FFN-блоков — тоже не самая быстрая операция, особенно при реальном диалоге с пользователем.

Ранее проблему пытались решать через Tensor Parallelism — распределение нагрузки между несколькими ускорителями. Но масштаб порождал другой вызов: все устройства начинали копировать KV-данные друг у друга, что быстро съедало доступную память.

Helix же делит трансформер-слой на два блока: внимание и FFN. Во время первой фазы активируется метод KV Parallelism — кеш токенов разбивается между устройствами без дублирования. Каждый ускоритель работает со своей частью истории, исключая избыточные обращения.

Когда этап внимания завершен, те же устройства переключаются в стандартный режим параллельной работы и обрабатывают FFN-блок. Таким образом, вычислительные ресурсы используются максимально эффективно.

Все это дополняется связью через NVLink и NVL72 — сверхбыстрые соединения между графическими ускорителями. А техника HOP-B позволяет одновременно пересчитывать значения и пересылать данные, минимизируя задержки.

Результаты тестов впечатляют. На модели DeepSeek-R1 671B, работающей с контекстом в миллион токенов, Helix увеличивает число параллельных пользователей в 32 раза — при той же задержке. В легких сценариях система сокращает время между токенами в 1,5 раза. Отдельная победа — снижение пиков загрузки памяти. При обновлении кэша данные распределяются по круговой схеме, что устраняет перегрузку отдельных узлов.

По сути, алгоритм дает возможность одновременно углублять контекст и ускорять работу модели — без жертв в производительности. Это открывает дорогу новым типам приложений: от помощника-юриста, который способен «прокрутить» весь архив судебных дел, до чат-бота, не забывающего ни одного сообщения за месяцы переписки.