Недавно мир столкнулся с последствиями масштабного сбоя в инфраструктуре Cloudflare. В течение нескольких часов многие популярные сервисы, такие как ChatGPT, а также обычная электронная почта, были недоступны для пользователей по всему миру. Этот инцидент стал ярким напоминанием о двух ключевых принципах в мире технологий:
- Нет идеальных систем: Абсолютная надежность — это идеал, к которому стремятся, но которого редко достигают.
- Всегда нужен план Б: Наличие резервных решений и стратегий восстановления критически важно.
Стоит отдать должное Cloudflare: компания оперативно признала проблему, быстро устранила ее и опубликовала детальный постмортем. Это не был результат внешнего вмешательства, а, как выяснилось, несчастный случай, связанный с внутренней архитектурой системы.
Технические детали инцидента
В основе проблемы оказалась система управления ботами (Bot Management system), которая функционирует, опираясь на записи в конфигурационном файле с ограниченной длиной. Данные для этого файла поступают из ClickHouse
Инцидент произошел, когда Cloudflare расширила доступы пользователей в своей базе данных. Это привело к тому, что в результаты запросов стали попадать данные из других таблиц, которые ранее не включались. В итоге объем данных превысил допустимый лимит конфигурационного файла, вызвав каскадный сбой.
Подробный отчет с визуализациями, таймингами и фрагментами кода доступен в официальном блоге Cloudflare.
Этот случай подчеркивает важность тщательного тестирования изменений в конфигурациях и необходимости учитывать потенциальные побочные эффекты даже при, казалось бы, безобидных обновлениях.