ИИ теперь может собрать ядро Linux из исходников — без вашей помощи

Вы думали, что терминал мёртв, а он стал мозгом ИИ.

На протяжении последних лет разработчики программного обеспечения привыкли полагаться на ИИ-инструменты, встроенные в редакторы кода. Такие продукты, как Cursor , Windsurf и GitHub Copilot , стали стандартом в этой области. Однако в последнее время наметился незаметный, но важный сдвиг — ИИ-модели всё чаще работают не с кодом напрямую, а с терминалом операционной системы. Это может радикально изменить подход к автоматизированной разработке.

Терминал, известный многим по фильмам 90-х годов, остаётся мощным средством управления системой — хоть и выглядит устаревшим. В то время как кодовые помощники пишут и исправляют программы, именно терминальные команды позволяют превратить эти строки кода в работающий продукт: установить зависимости, собрать проект, запустить и отладить его в реальной среде.

С начала года сразу несколько крупных лабораторий — Anthropic, DeepMind и OpenAI — выпустили собственные CLI-инструменты: Claude Code , Gemini CLI и CLI Codex . Эти продукты, хоть и сохраняют брендинг предыдущих решений, функционируют иначе. Они взаимодействуют не с кодом, а с компьютером как с системой. Подобная функциональность требует совершенно нового класса задач и подходов.

По мнению соавтора теста Terminal-Bench Майка Меррилла, в будущем до 95% взаимодействий между ИИ и компьютером будет происходить именно через терминал. Его команда разработала соответствующий бенчмарк, чтобы проверить, насколько хорошо ИИ-агенты справляются с задачами, выходящими за рамки редактирования кода. Примеры заданий — построить ядро Linux из исходников, восстановить алгоритм сжатия по заданной распаковке или настроить Git-сервер без подсказок.

Интерес к терминалу усиливается на фоне проблем с традиционными ИИ-редакторами. Windsurf оказался втянут в корпоративные перетасовки: часть команды перешла в Google, а сама компания продана Cognition. Это поставило под вопрос будущее продукта. Исследование METR, посвящённое Cursor Pro, показало: несмотря на заявленные приросты производительности, фактически инструмент замедлял разработку почти на 20%. Разработчики переоценивали его пользу.

Разница между поколениями инструментов особенно заметна в подходах к тестированию. Кодовые редакторы, вроде Cursor, ориентированы на GitHub-задачи: найти ошибку в коде и устранить её. Так устроен популярный тест SWE-Bench. Терминальные агенты работают с системой целиком: они должны уметь инициировать процессы, устанавливать окружения, взаимодействовать с файлами, сетевыми службами и железом.

В сложных заданиях Terminal-Bench агентам часто ничего не объясняется заранее — им нужно догадаться, чего от них хотят, и найти путь к решению. Поэтому даже самые продвинутые модели на текущий момент решают только половину задач. Тем не менее, Warp показывает, что уже сегодня ИИ способен автономно справляться с рутинной работой: подготовкой окружения, разруливанием зависимостей, запуском проектов. А если не справляется — объясняет, почему.

Такой уровень взаимодействия с системой приближает ИИ к роли полноценного помощника программиста — не только в написании строк кода, но и в сопровождении программной среды. И всё это происходит в старом добром терминале, который неожиданно оказался главной ареной новых битв между ИИ-системами.