ИИ без совести? Perplexity взламывает сайты под видом браузера

ИИ меняет свою цифровую внешность, чтобы обходить блокировки сайтов.

Компания Cloudflare, которая защищает миллионы сайтов от различных угроз, опубликовала серьёзные обвинения в адрес поисковой системы Perplexity AI. По данным исследования, этот популярный ИИ-помощник использует скрытые методы для сбора информации с веб-сайтов, нарушая установленные правила и игнорируя запреты владельцев ресурсов.

Проблема заключается в том, как Perplexity собирает данные для формирования ответов. Когда сайт блокирует официальных роботов компании через специальный файл robots.txt — своеобразную «табличку с надписью 'вход запрещён'» для автоматических систем, — Perplexity не останавливается. Вместо этого система начинает маскироваться под обычный браузер Chrome на компьютере Mac, пытаясь обмануть защиту.

Чтобы доказать свои подозрения, специалисты Cloudflare провели хитрый эксперимент. Они создали несколько совершенно новых сайтов, которые никто не знал и которые были полностью закрыты для роботов. Затем исследователи задали Perplexity вопросы об этих секретных сайтах. К их удивлению, система смогла предоставить подробную информацию о содержимом этих ресурсов, хотя по всем правилам доступа к ним быть не должно.

Оказалось, что Perplexity использует два разных подхода. Сначала система пытается получить доступ честно, представляясь как «Perplexity-User» и отправляя около 20–25 миллионов запросов в день. Но когда этот официальный робот блокируется, в ход идёт тайный агент — поддельный браузер, который отправляет ещё 3–6 миллионов запросов ежедневно, притворяясь обычным пользователем.

Более того, когда и эта маскировка не срабатывает, система начинает менять свои сетевые адреса, используя разные провайдеры интернета, чтобы обойти блокировки. Это похоже на то, как если бы нежелательный посетитель, получив отказ в одной двери, попробовал проникнуть через окно, а затем через чёрный ход.

Cloudflare сравнила поведение Perplexity с действиями OpenAI — создателя ChatGPT . Когда специалисты провели аналогичный тест с системой OpenAI, она вела себя совершенно по-другому. ChatGPT-User проверил файл с запретами, увидел, что доступ закрыт, и просто прекратил попытки получить информацию. Никаких обходных манёвров, никаких попыток замаскироваться — система честно соблюдала правила владельца сайта.

Интернет строится на доверии уже более тридцати лет. Существуют неписаные правила: роботы должны быть прозрачными, честно представляться, выполнять конкретные задачи и, самое главное, уважать желания владельцев сайтов. Поведение Perplexity идёт вразрез с этими принципами.

В ответ на обнаруженные нарушения Cloudflare исключила Perplexity из списка проверенных роботов и внедрила специальные алгоритмы для блокировки скрытого краулинга. Компания также разработала защитные меры для своих клиентов — теперь любой сайт может легко заблокировать нежелательную активность ИИ-систем.

Эта ситуация высветила важную проблему современного интернета. С одной стороны, ИИ-системы нуждаются в данных для обучения и работы. С другой стороны, владельцы контента должны иметь право решать, как их материалы используются. Уже более двух с половиной миллионов веб-сайтов выбрали полный запрет на использование их контента для обучения искусственного интеллекта.

Cloudflare предупреждает, что методы обхода ограничений будут развиваться, и компания готова адаптировать свои защитные механизмы. Сейчас ведётся работа с международными техническими организациями над созданием чётких стандартов поведения для ИИ-роботов в интернете.