Интернет уже не чист. ИИ его отравил — и теперь сам захлёбывается своей ложью

Ты думаешь, что читаешь сгенерированный текст. А это уже третье поколение копий копий копий.


oqiy3qo057q2a6a6aqzykptcsbxuwqw6.jpg


С запуском ChatGPT в ноябре 2022 года мир искусственного интеллекта перешёл в новую фазу — необратимую, масштабную и, возможно, опасную. По мнению ряда исследователей, последствия появления генеративных моделей могут оказаться не менее значимыми, чем испытание первого атомного оружия в 1945 году. С той лишь разницей, что теперь загрязнению подвергается не атмосфера, а цифровая среда — а именно, глобальный запас «чистой» информации.

Сравнение с ядерной эрой звучит неслучайно. После взрыва на полигоне Тринити и последующих ядерных испытаний следы радиации проникли в окружающую среду и стали загрязнять металл. Это стало серьёзной проблемой для медицинского и научного оборудования, где даже слабое фоновое излучение может исказить результаты. Так появился термин «низкофоновые материалы» — например, сталь, произведённая до 1945 года, или свинец, защищённый от радиоактивного загрязнения. Один из главных источников такой стали — потопленный в 1919 году флот германского адмирала Людвига фон Ройтера.

Теперь аналогичный эффект, но в цифровом пространстве, обсуждают разработчики ИИ. Суть опасения в том, что всё больше нейросетей обучаются не на данных, созданных людьми, а на контенте, сгенерированном другими ИИ. Это создаёт замкнутую петлю, в которой модели перерабатывают собственные производные — и постепенно утрачивают способность различать реальность, оригинальность и достоверность. Такое явление получило название "model collapse" или «коллапс модели».

Весной 2023 года Джон Грэм-Камминг, бывший технический директор Cloudflare, зарегистрировал домен lowbackgroundsteel.ai — сайт, посвящённый сбору и архивированию данных, не затронутых волной генеративного ИИ. Среди примеров — Arctic Code Vault, копия репозиториев GitHub, зафиксированная 2 февраля 2020 года. Идея аналогии со «сталью до Тринити» возникла у него интуитивно: он хотел создать надёжное хранилище «человеческого контента», не затронутого алгоритмической переработкой.

Однако остаётся открытым вопрос: действительно ли загрязнение датасетов настолько критично? Некоторые эксперты считают, что да. В год, последовавший за выходом ChatGPT, появилось множество научных публикаций, посвящённых проблеме «автофагии моделей» (Model Autophagy Disorder, MAD) — когда ИИ начинает потреблять собственный или схожий по структуре контент и теряет когнитивную устойчивость. Один из авторов этих работ, Илья Шумайлов, в интервью в 2024 году подтвердил, что опасность носит не гипотетический, а вполне прикладной характер.

Не так давно к дискуссии подключились и исследователи Apple. Они представили анализ коллапса reasoning-моделей — таких как OpenAI o1/o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking и Gemini Thinking. Однако их выводы подверг критике Алекс Лоусен из фонда Open Philanthropy. Он утверждал, что тесты Apple некорректны, поскольку вынуждали модели выдавать больше токенов, чем они могли обработать. Тем самым падение точности объяснялось не коллапсом как таковым, а перегрузкой входа.

Проблема, по мнению многих, выходит далеко за рамки вопроса качества генерации. Она затрагивает конкурентный ландшафт в сфере ИИ. Исследование конца 2024 года под названием «Юридические аспекты доступа к данным, созданным людьми» утверждает: доступ к "чистой" информации станет стратегическим ресурсом. Компании, имеющие архивы до 2022 года, получат неоспоримое преимущество. Те же, кто строит свои модели на уже загрязнённых источниках, будут уязвимы к коллапсу и потере качества.

Соавтор статьи, исследователь Кембриджского центра изучения экзистенциальных рисков Морис Чиодо, подчёркивает: загрязнение затрагивает всех участников рынка. Чем больше контента создают ИИ, тем меньше вероятность наткнуться на «нетронутую» информацию. Особенно это критично для стартапов, у которых нет доступа к защищённым или архивным данным. В результате возрастает риск образования цифровой олигополии — когда новые игроки попросту не смогут построить жизнеспособную модель.

Отсюда и предложения: начать с обязательной маркировки ИИ-контента. Но даже такая, казалось бы, простая мера сталкивается с техническими трудностями. Текст легко очистить от "водяных знаков", изображения — от метаданных, а международный характер интернета делает любые централизованные регуляции труднореализуемыми.

В качестве альтернативы предлагается развитие федеративного обучения — такой подход позволяет тренировать модели на удалённых, неконтаминированных данных, не передавая их напрямую. Это создаёт баланс: защищает данные и в то же время даёт возможность другим участникам рынка развивать свои ИИ без угрозы деградации качества.

Однако централизованные хранилища «чистой» информации тоже не лишены рисков. Как указывает Чиодо, возникает множество вопросов: кто контролирует эти массивы? Насколько они безопасны ? Что произойдёт, если доступ к ним получит государство, утратившее легитимность? Или если произойдёт утечка? В этом контексте профессор конкурентного права Рупрехт Подзун предлагает вместо централизации — конкуренцию: децентрализованное управление наборами данных позволит избежать как политических манипуляций, так и технических сбоев.

Суть опасений сводится к следующему: коллапс моделей угрожает самому будущему ИИ как технологии. Если государство заинтересовано в долгосрочном, устойчивом и конкурентоспособном развитии отрасли, оно должно вмешаться до того, как рынок окончательно закрепится за несколькими гигантами. Необходимо создать правила доступа к данным, методы их проверки и механизмы для сохранения источников, неподверженных ИИ-контаминации.

Но на практике регулирование , особенно в США и Великобритании, пока не поспевает за технологией. США не могут похвастаться чёткой политикой в области ИИ, а Великобритания, опасаясь утраты инновационного темпа, делает ставку на «мягкий надзор». Лишь Евросоюз с законом об ИИ демонстрирует готовность к более структурированному подходу.

«Сейчас мы находимся в первой фазе регулирования, когда от него отказываются ради инноваций», — говорит Подзун. — «Но если не действовать заранее, мы рискуем повторить историю с цифровыми платформами — когда опомнились, уже было поздно».

По словам Чиодо, срочность вызвана именно необратимостью. Если вся информационная среда будет загрязнена, очистить её окажется либо крайне дорого, либо попросту невозможно. Пока неясно, насколько велик масштаб угрозы. Но если она реальна, то промедление может стоить целой эпохи — эпохи, в которой ИИ утратит способность понимать мир, а мы — контролировать ИИ .