Скелеты в шкафу Claude: ИИ-модели врали нам о том, как решают задачи
NewsMakerДерзкое разоблачение цифрового разума.
Компания Anthropic представила результаты двух новых исследований, которые позволяют проследить и проанализировать процесс принятия решений в крупных языковых моделях. Ученым удалось создать методику, выявляющую, как искусственный интеллект связывает различные понятия между собой и формирует ответы на запросы пользователей.
До сих пор принципы работы современных нейросетей оставались малопонятными даже для их создателей. В отличие от старых программ, действовавших по четким алгоритмам, искусственный интеллект нового поколения учится самостоятельно. Внутренняя структура таких систем настолько сложна, что специалисты называли их "черными ящиками" – никто не мог точно сказать, как именно нейросеть представляет и использует полученные знания.
Команда Anthropic разработала особый подход к изучению этих процессов. В прошлом году исследователи научились отслеживать, как активность внутри языковой модели соотносится с конкретными и абстрактными понятиями. Теперь они пошли дальше и создали инструмент для анализа того, как модель соединяет эти понятия в "мыслительные цепочки".
Эксперименты проводили на модели Claude 3.5 Haiku – самой компактной в линейке компании. Специалисты разработали "модель-заместитель", которая копировала принципы работы Haiku, но использовала более прозрачные для анализа внутренние компоненты. Это позволило измерить, как различные элементы системы влияют друг на друга при обработке запроса, и проследить формирование промежуточных "мыслительных шагов".
Исследователи протестировали модель на широком спектре задач: от многоступенчатых логических рассуждений и сочинения стихов до постановки медицинских диагнозов и решения математических примеров. В ходе экспериментов открылись неожиданные особенности работы искусственного интеллекта.
Оказалось, что при создании стихов нейросеть не просто последовательно предсказывает каждое следующее слово, как считалось ранее. Сначала она выбирает рифмующееся слово для концовки строки, а затем выстраивает вокруг него остальной текст. Это говорит о способности системы планировать структуру ответа на несколько шагов вперед.
Любопытное открытие касается работы с разными языками. Хотя современные языковые модели свободно общаются на разных языках, оставалось загадкой, какой язык они используют для "внутренних размышлений". Эксперименты показали: модель сначала формирует независимые от языка представления концепций и связывает их между собой, и только потом выбирает конкретный язык для ответа.
При решении математических задач нейросеть продемонстрировала необычный подход. Складывая два числа, она сначала работала с приближенными значениями, а затем уточняла результат, анализируя, какой цифрой он должен оканчиваться. Однако когда систему попросили объяснить метод решения, она описала стандартный алгоритм сложения "в столбик", который преподают в школе и легко найти в интернете.
Это явление, названное "неверным рассуждением", заставляет задуматься о надежности искусственного интеллекта. Выяснилось, что процесс выполнения задачи и механизм объяснения своих действий в нейросети существуют отдельно друг от друга. Такое расхождение между реальными шагами решения и их объяснением ставит новые вопросы о том, как контролировать и направлять работу подобных систем.
Созданная методика анализа имеет свои ограничения. Картина происходящего внутри модели получается размытой и неполной, а для изучения одного запроса требуются многочасовые усилия специалистов. Тем не менее, понимание принципов работы искусственного интеллекта становится все более важным – системы, подобные Claude, уже активно внедряются в различные сферы жизни.

Компания Anthropic представила результаты двух новых исследований, которые позволяют проследить и проанализировать процесс принятия решений в крупных языковых моделях. Ученым удалось создать методику, выявляющую, как искусственный интеллект связывает различные понятия между собой и формирует ответы на запросы пользователей.
До сих пор принципы работы современных нейросетей оставались малопонятными даже для их создателей. В отличие от старых программ, действовавших по четким алгоритмам, искусственный интеллект нового поколения учится самостоятельно. Внутренняя структура таких систем настолько сложна, что специалисты называли их "черными ящиками" – никто не мог точно сказать, как именно нейросеть представляет и использует полученные знания.
Команда Anthropic разработала особый подход к изучению этих процессов. В прошлом году исследователи научились отслеживать, как активность внутри языковой модели соотносится с конкретными и абстрактными понятиями. Теперь они пошли дальше и создали инструмент для анализа того, как модель соединяет эти понятия в "мыслительные цепочки".
Эксперименты проводили на модели Claude 3.5 Haiku – самой компактной в линейке компании. Специалисты разработали "модель-заместитель", которая копировала принципы работы Haiku, но использовала более прозрачные для анализа внутренние компоненты. Это позволило измерить, как различные элементы системы влияют друг на друга при обработке запроса, и проследить формирование промежуточных "мыслительных шагов".
Исследователи протестировали модель на широком спектре задач: от многоступенчатых логических рассуждений и сочинения стихов до постановки медицинских диагнозов и решения математических примеров. В ходе экспериментов открылись неожиданные особенности работы искусственного интеллекта.
Оказалось, что при создании стихов нейросеть не просто последовательно предсказывает каждое следующее слово, как считалось ранее. Сначала она выбирает рифмующееся слово для концовки строки, а затем выстраивает вокруг него остальной текст. Это говорит о способности системы планировать структуру ответа на несколько шагов вперед.
Любопытное открытие касается работы с разными языками. Хотя современные языковые модели свободно общаются на разных языках, оставалось загадкой, какой язык они используют для "внутренних размышлений". Эксперименты показали: модель сначала формирует независимые от языка представления концепций и связывает их между собой, и только потом выбирает конкретный язык для ответа.
При решении математических задач нейросеть продемонстрировала необычный подход. Складывая два числа, она сначала работала с приближенными значениями, а затем уточняла результат, анализируя, какой цифрой он должен оканчиваться. Однако когда систему попросили объяснить метод решения, она описала стандартный алгоритм сложения "в столбик", который преподают в школе и легко найти в интернете.
Это явление, названное "неверным рассуждением", заставляет задуматься о надежности искусственного интеллекта. Выяснилось, что процесс выполнения задачи и механизм объяснения своих действий в нейросети существуют отдельно друг от друга. Такое расхождение между реальными шагами решения и их объяснением ставит новые вопросы о том, как контролировать и направлять работу подобных систем.
Созданная методика анализа имеет свои ограничения. Картина происходящего внутри модели получается размытой и неполной, а для изучения одного запроса требуются многочасовые усилия специалистов. Тем не менее, понимание принципов работы искусственного интеллекта становится все более важным – системы, подобные Claude, уже активно внедряются в различные сферы жизни.