llm-d: платформа от Red Hat, которая заставляет генеративный ИИ работать без истерик

Компания собрала всё, что бесило вас в работе языковых моделей. И починила.


jky1xclp8jaoarcg2982n9ff239s6cij.jpg


Компания Red Hat представила новый проект с открытым исходным кодом llm-d во время своего ежегодного саммита разработчиков. Событие совпало с выпуском десятой версии операционной системы Red Hat Enterprise Linux.

Инициатива llm-d призвана оптимизировать распределённый вывод генеративного искусственного интеллекта в масштабных системах. К проекту присоединились ведущие технологические гиганты: NVIDIA, AMD, Intel, исследовательское подразделение IBM, облачная платформа Google Cloud, компания CoreWeave и организация Hugging Face, специализирующаяся на разработке языковых моделей.

Программная платформа функционирует на базе оркестратора контейнеров Kubernetes и использует фреймворк vLLM для распределённого вывода. Разработчики интегрировали в систему компонент LMCache, отвечающий за выгрузку пар "ключ-значение" из основной памяти. Архитектура включает интеллектуальную маршрутизацию сетевого трафика с учётом особенностей работы искусственного интеллекта и высокопроизводительные программные интерфейсы для обмена данными.

На официальном сайте проекта llm-d.ai создатели характеризуют свою разработку как нативный для Kubernetes высокопроизводительный фреймворк распределённого вывода крупных языковых моделей. Платформа предоставляет пользователям понятный путь к масштабному развёртыванию систем искусственного интеллекта, обеспечивая минимальное время запуска и оптимальное соотношение производительности к затратам для большинства моделей на различных аппаратных ускорителях.

Ключевая особенность llm-d заключается в модульной архитектуре и комплексном подходе к обслуживанию генеративных моделей ИИ. Система использует новейшие оптимизации для распределённого вывода, включая маршрутизацию с учётом состояния кэша "ключ-значение" и разделённое обслуживание запросов. Все компоненты интегрированы с операционными инструментами Kubernetes через специальный шлюз Inference Gateway (IGW).

Подробную информацию о технических особенностях и возможностях платформы llm-d можно найти в официальном пресс-релизе Red Hat.