ИИ с памятью слона: Magic представляет модель с контекстным окном в 100 млн токенов

LLM, которая может обработать 750 романов за раз.


wrb2h7o7vsn377hyv0m6ocil2byrhlc1.jpg


Компания Magic , специализирующаяся на ИИ, недавно сделала громкое заявление. Разработчики утверждают, что им удалось создать большую языковую модель ( LLM ) с контекстным окном в 100 миллионов токенов. Это достижение может стать настоящим прорывом в решении одной из самых распространенных проблем современных чат-ботов — их ограниченной памяти.

Токены — это базовые единицы текста, которые обрабатывают языковые модели. Они могут представлять собой как целые слова, так и их части. Контекстное окно в 100 миллионов токенов способно вместить объем текста, эквивалентный примерно 750 романам. Это значительно превышает объем информации, необходимый для поддержания целостного диалога, и открывает новые возможности для работы с большими массивами данных.

Нареш Дулам, вице-президент по разработке программного обеспечения в JPMorgan Chase, комментирует: «У больших языковых моделей есть ограничения в объеме обрабатываемой информации. Однако объем внимания постоянно растет. Именно в этом и заключается преимущество длинного контекстного окна. Чем больше информации модель может удержать в памяти, тем больше данных вы можете ей предоставить для анализа».

Если Magic действительно удалось разработать модель с контекстным окном в 100 миллионов токенов, она побьет рекорд, установленный Google Gemini 1.5 Pro. Его показатель — максимум 2 миллиона. Другие популярные LLM, такие как последние версии Claude от Anthropic, GPT от OpenAI и Llama от Meta, имеют контекстные окна в 200 000 токенов или меньше.

Для тестирования своей модели Magic разработала новый инструмент под названием HashHop , который доступен на GitHub. Авторы отмечают, что при типичных методах оценки память ИИ проверяют, вставляя странную фразу в длинный текстовый документ, например, помещая предложение о встрече за кофе в текст «Моби Дика». Однако нейросети могут научиться выявлять неестественную для контекста фразу, что делает их успешными в тестировании, но неэффективными при поиске других важных сведений в объемных текстах.

HashHop проверяет, насколько качественно модель извлекает информацию, иначе. Искусственному интеллекту предоставляют длинный документ, заполненный хешами (случайными строками букв и цифр) и просят найти конкретные из них. В тесте HashHop модель Magic смогла вспомнить хеши с точностью до 95% в контекстном окне из 100 миллионов токенов. Проще говоря, она смогла бы вспомнить одно предложение из корпуса, состоящего из 750 романов.

Эрик Штейнбергер, генеральный директор Magic, в подкасте No Priors заявил: «На практике использование расширенного контекста просто работает лучше». Компания сосредоточилась на этом решении вместо того, чтобы обучать модель на дополнительных специализированных данных или использовать внешние алгоритмы поиска. Оно позволяет пользователям загружать все необходимые данные прямо в запрос. «Наша модель видит все данные одновременно», — подчеркивает Штейнбергер.

Однако не стоит думать, что длинные контекстные окна решают все проблемы, а к заявлениям Magic, по мнению разных исследователей, следует относиться с определенной долей скептицизма. Даниэль Хашаби , доцент кафедры компьютерных наук Университета Джона Хопкинса, комментирует: «Описания модели с таким огромным контекстным окном, несомненно, звучат амбициозно, если они соответствуют действительности. Однако ключевыми факторами здесь являются практическая реализация и эффективность технологии. Бегло ознакомившись с записью в блоге, я заметил, что информация представлена довольно расплывчато. В ней не хватает четких оценок, описания архитектуры и деталей процесса обучения». И правда, все, что у нас есть — запись в блоге: Magic пока не выпустила научную статью, как это принято в сообществе, и модель все еще недоступна для общественности.

Дулам соглашается с опасениями Хашаби относительно практичности и эффективности модели, отмечая, что длинный контекст может иметь свои недостатки. «Если у вас неограниченный контекст, возникает соблазн ввести слишком много данных. Люди часто так поступают», — отмечает он. В результате в ответе языковой модели появляется «шум», снижающий качество и точность. Кроме того, это значительно повышает требования к вычислительным ресурсам и памяти по сравнению с другими методами, такими как генерация с расширенным поиском (RAG).

Хотя без публично доступной версии преимущества заявленного Magic 100-миллионного контекстного окна остаются лишь в теории, это достижение наглядно демонстрирует важную тенденцию: контекстные окна языковых моделей растут, причем быстро. Первоначальная версия GPT-3.5 от OpenAI имела контекстное окно всего в 4096 токенов. Сегодня GPT-4o имеет контекстное окно в 128 000 токенов. Это тридцатикратное улучшение менее чем за два года. Конечно, качество работы моделей за это время взлетело до небес.