Claude 4 уже здесь. Бесплатный — просто умный, платный — кодит как сеньор, только без отпусков

Что будет, если ИИ заставят программировать 7 часов подряд? В Anthropic проверили. И удивились.

Компания Anthropic выпустила два новых языковых помощника четвёртого поколения: Claude Sonnet 4 и Claude Opus 4. Запуск прошёл 22 мая, причём младшая модель стала доступна бесплатным пользователям, а старшая требует платной подписки. Opus 4 заметно лучше справляется с программированием, чем младший собрат, что показывают результаты независимых тестов.

Новый флагман семейства набрал 72,5% в авторитетном бенчмарке SWE-bench, специально разработанном для оценки способностей искусственного интеллекта в сфере разработки программного обеспечения. Аббревиатура SWE расшифровывается как Software Engineering Benchmark — комплексный набор задач, имитирующих реальные вызовы, с которыми сталкиваются инженеры-программисты в повседневной работе.

Тесты показали впечатляющую выносливость модели при решении масштабных задач. Opus 4 способен поддерживать стабильную производительность на протяжении длительных сессий, требующих концентрации и выполнения тысяч последовательных операций. Создатели зафиксировали случай, когда система непрерывно работала над кодом в течение семи часов подряд, не теряя качества результатов.

Команда Lovable — стартапа, специализирующегося на создании веб-приложений с помощью искусственного интеллекта, — на практике убедилась в улучшениях. Компания встроила Claude в свой инструмент автоматической генерации кода на основе текстовых запросов пользователей. После обновления до четвёртой версии инженеры увидели кардинальные изменения в работе системы.

Количество ошибок в генерируемом коде сократилось на четверть, а общая скорость обработки запросов возросла на 40%. Улучшения затронули как создание новых проектов с нуля, так и редактирование существующих разработок, включая проекты, созданные ранее с помощью предыдущих версий языковой модели.

Основатель Lovable Антон Осика отдельно отметил резкое снижение синтаксических ошибок при генерации кода. В публикации в социальной сети X он подчеркнул, что Claude 4 практически устранил большинство проблем, связанных с некорректным синтаксисом при автоматическом создании программных решений.

Синтаксические ошибки особенно болезненны для систем автоматической генерации кода, поскольку нарушают структуру программы и делают её неработоспособной. Даже единственная пропущенная скобка или неправильно поставленная точка с запятой может полностью парализовать выполнение программы, требуя ручного вмешательства разработчика для исправления.

Независимые тесты показывают превосходство Claude 4 в области программирования по сравнению с конкурирующими решениями. Работа с проектами, использующими языки Dart и Kotlin, выявила заметное преимущество новой модели перед Google Gemini в плане точности генерируемого кода и частоты возникновения критических ошибок.

Эффективность различных языковых моделей существенно зависит от специфики конкретного проекта и контекста задачи. В сценариях, не требующих обработки огромных массивов контекстной информации, Claude 4 показывает стабильно лучшие результаты, создавая более чистый и функциональный код с меньшим количеством недочётов.

Семейство Claude долгое время считается лидером в сфере программирования среди языковых моделей. Однако конкуренция в этой области значительно обострилась после появления Google Gemini 2.5 Pro, способного обрабатывать контекстные окна размером до одного миллиона токенов — единиц текстовой информации, которые модель может удерживать в памяти одновременно.

Контекстное окно Claude 4 ограничено 200 тысячами токенов, что в пять раз меньше возможностей конкурента от Google. Большой контекст позволяет модели работать с масштабными проектами, анализировать обширные кодовые базы и учитывать множественные взаимосвязи между различными компонентами программы при генерации новых фрагментов.

Впрочем, размер контекстного окна — не единственный критерий качества программирования. Способность модели понимать логику кода, следовать архитектурным принципам и создавать элегантные решения часто оказывается важнее возможности обработки больших объёмов информации за один раз.

Практический опыт показывает: обе модели могут выдавать как выдающиеся результаты, так и серьёзные промахи в зависимости от постановки задачи. Качество итогового кода во многом определяется искусством формулирования запросов — техникой, известной как prompt engineering, которая требует понимания особенностей работы конкретной языковой модели.

Опытные разработчики часто комбинируют различные инструменты для достижения оптимальных результатов. Модели вроде OpenAI o3 или Google Gemini хорошо справляются с планированием архитектуры и общей стратегии проекта, в то время как Claude 4 и Gemini лучше проявляют себя в непосредственном написании программного кода.

Появление Claude 4 открывает новый этап в развитии инструментов автоматизации программирования, предлагая разработчикам более надёжного и точного помощника для решения повседневных задач. Сокращение количества ошибок и повышение скорости работы создают возможности для более эффективного использования искусственного интеллекта в софтверной индустрии.