ИИ бросает вызов Эминему? ChatGPT-4o и его новые таланты

Модель теперь не только пишет код и помогает с аналитикой, но и рассказывает сказки.

OpenAI выпустила обновление языковой модели ChatGPT-4o, представленной в мае 2024 года. Главные изменения затронули алгоритмы работы с текстом: система получила усовершенствованный механизм генерации письменной речи и новые инструменты для обработки пользовательских данных.

В основе обновления – переработанная архитектура обработки естественного языка. При тех же вычислительных мощностях модель обрабатывает запросы в два раза быстрее, чем GPT-4-Turbo. В тестах на понимание контекста система демонстрирует улучшенную способность выдерживать заданный стиль на протяжении всего текста.

Пользователи первыми обратили внимание на изменения в работе с художественными текстами. Один из них проверил модель необычным способом – попросил написать рэп в стиле Эминема о квантовой механике. ChatGPT-4o воспроизвел всё в деталях, даже характерную для артиста технику внутренних рифм, чего раньше не удавалось ни одной языковой модели.

Расширились и возможности работы с файлами. При загрузке электронных таблиц система теперь анализирует не только сами данные, но и связи между ними, формулы и условное форматирование. Работая с изображениями, модель распознает детали на разных планах и может описать их взаимное расположение.

Инженеры OpenAI также внедрили новый модуль распознавания речи. Advanced Voice Mode анализирует аудиопоток в режиме реального времени, что позволяет использовать модель для синхронного перевода. ИИ различает 95% слов в речи с сильным акцентом и способен обработать 17 языков без потери качества.

Отдельного внимания заслуживает способность модели анализировать интонационные паттерны. ChatGPT-4o выделяет в речи маркеры эмоционального состояния: темп, паузы, изменения тона. На их основе система корректирует стиль ответов, подстраиваясь под характер диалога.

Параллельно с основной версией разработчики выпустили GPT-4o-mini – облегченную модификацию с упором на скорость отклика. В тестах на логические рассуждения MMLU она набрала 82%, обойдя Gemini 1.5 Flash на 3% и Claude 3 Haiku на 7%. Mini-версия особенно эффективна в задачах генерации программного кода благодаря сниженной нагрузке на процессор.

При тестировании GPT-4o-mini показала высокую скорость в работе с популярными языками программирования. Модель генерирует работоспособный код на Python, JavaScript и Java за доли секунды, учитывая контекст проекта и принятые в нем соглашения об оформлении.

Доступ к новым функциям распределяется по уровням подписки. Пользователи бесплатной версии получают ограниченное количество запросов к GPT-4o, после чего система переключается на mini-версию. Владельцам Plus, Teams и Enterprise доступен расширенный лимит – до пяти раз больше базового.

А в основе прогресса лежит оптимизация вычислительных процессов. GPT-4o использует новый метод обработки токенов, что позволяет вдвое снизить нагрузку на серверы при сохранении качества ответов. Это особенно заметно при работе с длинными текстами и сложными аналитическими запросами.