DNS исчез. Просто исчез. 62 минуты цифровой тишины — всё из-за ошибки Cloudflare

Компания объяснила, почему пользователей остались без интернета 14 июля.


pnpsgdy9f8fp5a7wi4dmhm19wkfq4f27.jpg


14 июля 2025 года у пользователей по всему миру перестал работать один из самых популярных публичных DNS-резолверов — Cloudflare 1.1.1.1. Сбой длился 62 минуты и затронул миллионы людей, которые не могли открыть сайты и воспользоваться большинством интернет-сервисов. Cloudflare объяснила , что причиной стала внутренняя ошибка конфигурации, связанная с подготовкой инфраструктуры под новый региональный сервис.

Авария началась в 21:52 по UTC, когда IP-префиксы, относящиеся к 1.1.1.1, были неожиданно отозваны из глобальной маршрутизации. Это произошло из-за того, что ранее, 6 июня, при настройке будущей службы Data Localization Suite (DLS), в конфигурацию по ошибке были включены адреса резолвера. Ошибка оставалась незаметной до момента, когда в рамках обновления была активирована соответствующая конфигурация.

Проблема привела к тому, что DNS-запросы, направленные на IP-адреса 1.1.1.1, 1.0.0.1 и их аналоги в IPv6, перестали доходить до инфраструктуры Cloudflare. Резолвинг имён оказался невозможен — большинство пользователей остались без доступа к сайтам. Протоколы DNS over UDP, TCP и TLS оказались затронуты полностью. Исключением стал DNS-over-HTTPS (DoH), так как многие клиенты используют домен cloudflare-dns.com, маршрутизируемый по другим IP.

На фоне сбоя был зафиксирован BGP-перехват (hijack) префикса 1.1.1.0/24 индийским оператором Tata Communications. Cloudflare подчёркивает, что это не стало причиной инцидента — перехват стал возможен лишь после того, как Cloudflare временно перестала анонсировать этот маршрут.

Обнаружение проблемы произошло в 22:01, после чего специалисты начали откат конфигурации. В 22:20 началась републикация маршрутов, и трафик частично восстановился. Однако 23% периферийных серверов уже автоматически сбросили IP-привязки, и для восстановления требовалась повторная настройка через внутреннюю систему управления изменениями. Полная маршрутизация была восстановлена в 22:54 UTC.


q5hcode8gfz5s6cpe394mkhev7v3fmh9.png


Ошибка стала возможна из-за несовершенства старой системы описания топологий обслуживания, где IP-префиксы вручную связываются с конкретными дата-центрами. Эта схема не предусматривала поэтапного развертывания и отката. В Cloudflare признали, что изменения были проверены вручную, но не прошли через механизм «canary»-развёртывания, что позволило ошибке сразу распространиться глобально.

В компании пообещали ускорить отказ от устаревших механизмов, внедрить прогрессивное обновление с мониторингом, усилить документацию и покрытие тестами. Также будут отключены синхронизируемые конфигурации между новыми и старыми системами управления маршрутами.

Публичный резолвер 1.1.1.1 остаётся бесплатным и одним из самых используемых в мире. Cloudflare извинилась за сбой и заявила, что принятые меры позволят избежать повторения подобной ситуации.