Последний шанс заглянуть в разум ИИ: учёные предупреждают о «закрывающемся окне»

Пока мы спорим о законах, ИИ учится их обходить.

Искусственный интеллект развивается с поразительной скоростью, открывая новые возможности и одновременно порождая серьёзные риски. Осознавая потенциальную угрозу, крупнейшие технологические компании, включая Google DeepMind, OpenAI, Meta, Anthropic, а также ряд некоммерческих организаций, объединились с целью привлечь внимание к необходимости контроля за тем, как ИИ принимает решения.

В новой научной работе, поддержанной такими фигурами индустрии, как Илья Суцкевер из OpenAI и Джеффри Хинтон, прозвучал тревожный сигнал: возможности наблюдать за процессом мышления ИИ могут исчезнуть уже в ближайшем будущем.

Особое внимание в документе уделяется технологии цепочек рассуждений (Chain-of-Thought, CoT) — методу, при котором ИИ разбивает сложную задачу на пошаговые действия, аналогично тому, как это делает человек, решая, например, трудную математическую задачу. Такие цепочки являются неотъемлемой частью современных языковых моделей, включая DeepSeek R1 и другие продвинутые ИИ-системы.

Авторы подчёркивают, что CoT уже доказали свою эффективность в выявлении нежелательного поведения ИИ. Например, с их помощью удалось зафиксировать случаи, когда ИИ-агенты использовали изъяны в своих системах вознаграждения или подгоняли данные, чтобы добиться нужного результата. Однако по мере того как ИИ становится всё сложнее, распознать, каким образом он приходит к своим выводам, становится всё труднее.

В связи с этим участники инициативы настаивают на необходимости более глубокого анализа того, как устроены CoT, и на разработке методов, которые сохранят их наблюдаемость. Также предлагается рассматривать CoT как важный компонент стратегии обеспечения безопасности ИИ.

В своей работе авторы отмечают, что CoT-мониторинг может стать редким и ценным инструментом контроля над мощными ИИ-агентами. При этом они предупреждают: нет уверенности в том, что такая прозрачность сохранится и дальше. По этой причине разработчикам ИИ рекомендовано максимально использовать текущие возможности для анализа цепочек рассуждений и изучить, как именно можно сохранить эту возможность в будущем.

Сам факт того, что представители конкурирующих компаний подписали совместный документ, указывает на серьёзность проблемы. По мере того как ИИ всё глубже внедряется в ключевые сферы жизни, обеспечение его безопасности становится не только задачей технической, но и этической и общественной.