Нагрузите ИИ по-серьёзке — и он начнёт не думать, а бредить

Языковые модели строят из себя экспертов. Пока не задашь вопрос, который требует мозгов.

Когда разговор заходит о различиях между научной фантастикой и фэнтези, среди технически подкованных людей начинается настоящая словесная дуэль — вежливая, но бесконечная. У каждого свой взгляд, однозначного ответа не существует, и, возможно, спор продолжится даже после тепловой смерти Вселенной. Но несмотря на всю абсурдность попытки провести чёткую границу, в одном случае подобное размышление действительно может быть полезным — когда речь заходит о хайпе в ИТ-индустрии.

В последние месяцы особое внимание достаётся идее создания цифровых двойников . Предлагается, чтобы специалисты по информационным технологиям создавали свои «агентные копии» — условно разумных помощников, способных взять на себя рутину, позволяя живому человеку сосредоточиться на более важных задачах. Звучит, как мечта? Или как подготовка к катастрофе в духе «Фантазии» Диснея, где Ученик чародея теряет контроль над заклинанием? На деле этот концепт порождает больше вопросов, чем ответов. Например, если цифровой двойник что-то напортачит — кто за это отвечает? Где заканчивается «трудоёмкая рутина» и начинается «работа»? А если сотрудник увольняется — кому теперь принадлежит созданная им копия? Вся эта история выглядит скорее как магия, чем как инженерия.

На самом деле идея, лежащая в основе цифровых двойников, не нова. В середине 1980-х годов в ИТ-среде уже был подобный энтузиазм, только называлось это « экспертные системы ». Тогдашние оптимисты хотели объединить популярный язык программирования Lisp — специально созданный для работы с длинными цепочками концептуальных данных — с алгоритмами, имитирующими мышление специалистов. Миллионы долларов влиты, амбиции зашкаливают, журналисты трубят о рождении настоящего ИИ. Только вот ИИ так и не родился.

Дело было вовсе не в технической отсталости той эпохи. Наоборот, компьютеры быстро эволюционировали, закон Мура работал на полную мощность, финансирование поступало щедро. Однако даже при всех этих ресурсах что-то пошло не так. Основная проблема заключалась в непостижимости человеческого мышления. Люди не работают как таблицы и графы. Экспертность нельзя просто «выкачать» из мозга и записать в алгоритм. Именно поэтому даже после пятнадцати лет учёбы новички редко сразу становятся полноценными профессионалами.

Современные попытки повторить этот подход с помощью больших языковых моделей (LLM) и их логических собратьев — LRM (Large Reasoning Models) — сталкиваются с теми же трудностями. Даже если отставить в сторону всю лирику, технологии пока не могут предложить алгоритм, который бы действительно воспроизводил способ мышления, принимающий во внимание опыт, контекст и здравый смысл. Создать цифрового двойника, пусть даже самого неопытного сотрудника, всё ещё невозможно.

Тем не менее индустрия не сдаётся. Вместо магических заклинаний теперь надеются на алгоритмы масштабируемого рассуждения. Apple недавно опубликовала исследование, в котором сравнивается эффективность LLM и LRM при решении логических задач разной сложности. В качестве тестов использовались классические головоломки, вроде башни Ханой и логистической дилеммы «лиса, куры и мешок зерна».

Результаты оказались неоднозначными. На простых задачах LLM зачастую показывали лучшие результаты, чем их «продвинутые» собратья. Модели с усиленным логическим блоком действительно проявляли себя лучше на задачах средней сложности. Но при переходе к по-настоящему трудным кейсам обе категории ИИ теряли ориентиры. В некоторых случаях LRM не просто давали ошибочные ответы — они буквально «сдавались», перестав предлагать хоть какие-то осмысленные решения. Даже если им заранее предоставлялись алгоритмы решения задачи, итог не улучшался.

Именно в этих сложных случаях исследователи заметили парадоксальное поведение: по мере роста сложности модели не только не прилагали больше усилий, но наоборот — снижали глубину рассуждений. Это указывает на то, что у текущих ИИ существует предел вычислительной «мотивации», не зависящий от мощности железа или объёма данных. Словно бы по достижении определённой точки интеллектуального напряжения, модель просто перестаёт пытаться.

Также было замечено, что разные задачи вызывают совершенно разный отклик у тех же самых моделей. Это означает, что даже если ИИ хорошо справляется с одной логической задачей, нельзя автоматически ожидать того же при работе с другой, пусть даже схожей по типу. Общие способности к выводу и логике, как выяснилось, сильно переоценены.

Хотя исследование отражает только один срез текущих реалий, оно далеко не уникально. Если углубиться в список источников, приведённых в научной работе, можно найти десятки других примеров, демонстрирующих те же проблемы. Особенно выделяются трудности с саморефлексией: модели, которые должны «думать о собственном мышлении», зачастую просто выходят на логический тупик. И здесь становится очевидно, насколько важна задача-ориентированная проверка ИИ, а не абстрактные бенчмарки.

Конечно, ни одно из этих наблюдений не входит в маркетинговые проспекты ИИ-компаний. Там до сих пор царит вера в неуклонный прогресс. Но в действительности самообман — не только в рекламных текстах. Он заложен и в природе технологии, которая имитирует рассуждение, не обладая его сутью.

Другая тревожная тенденция — это явление «коллапса модели» из-за загрязнённых данных. ИИ продолжает «галлюцинировать» , и пока неизвестно, как надёжно справиться с этим эффектом. Это фундаментальные ограничения, которые нельзя просто пересидеть, дожидаясь появления нового поколения LLM.

Всё это подрывает популярное представление об ИИ как об инструменте, который с каждым месяцем становится точнее, умнее и полезнее. На деле это — иллюзия. Технология создаёт образ разумной сущности, но за маской — хаотичный набор эвристик, работающий только в пределах предсказуемого контекста. А обманчивое очеловечивание, которое так охотно используют разработчики, может иметь опасные последствия. То, что кажется симпатичным помощником, на деле может стать источником системной ошибки с непредсказуемыми последствиями.

Парадокс в том, что именно специалисты в сфере ИТ первыми ощущают ограничения ИИ на практике. В этом смысле они — те самые «канарейки в шахте», чьё состояние сигнализирует о скрытых угрозах. В других отраслях может не быть такого уровня контроля качества и взаимосвязи между функциональностью и надёжностью решений.

Поэтому именно инженеры, архитекторы систем и разработчики сегодня должны быть самыми голосистыми критиками происходящего. Не ради сдерживания прогресса, а ради того, чтобы он не превратился в саморазрушение. Им лучше других известно, где заканчивается наука и начинается сказка. И у них есть моральное обязательство — использовать знания не для очередного «демо», а для защиты реального мира от иллюзий, в которые сама технология легко превращается.