La confiabilidad del servicio en la nube hace sonar otra alarma: Cloudflare revela detalles de una interrupción de 5 horas incidente

La fiabilidad del servicio en la nube ha vuelto a hacer sonar la alarma. El 18 de noviembre, hora local, el gigante de la infraestructura de Internet Cloudflare experimentó una interrupción del servicio, lo que provocó la inaccesibilidad de muchos sitios web importantes en todo el mundo. Según la agencia de seguimiento de fallas del sitio web Downdetector (el sitio web en sí alguna vez fue inaccesible para algunos usuarios), el chatbot Claude de Anthropic, Truth Social de Trump y la plataforma de redes sociales X de Musk se vieron afectados, y algunos servicios digitales del sistema de tránsito de Nueva Jersey en los Estados Unidos también quedaron paralizados debido a interrupciones.

Mientras tanto, la página de estado de OpenAI también mostró más tarde ese día que ChatGPT y su aplicación de videos cortos Sora se habían recuperado completamente después de fallar debido a un problema de "proveedor de servicios externo".

Cloudflare se estableció en la Universidad de Harvard en 2009 y lanzó oficialmente la primera versión beta en 2010. Cotizó en la Bolsa de Valores de Nueva York en 2019 y actualmente presta servicios al 30% de las empresas Fortune 1000. Sus servicios principales incluyen DDoS (Defensa Distribuida de Denegación de Servicio), un ataque que inunda un sitio web objetivo con una gran cantidad de solicitudes falsas y lo paraliza. Según informes de medios extranjeros, los servicios de gestión del tráfico y protección de seguridad de la empresa cubren alrededor del 20% del tráfico de Internet.

Afectada por el incidente, el precio de las acciones de Cloudflare cayó un 2,83% al cierre del mercado de valores estadounidense el día 18.

El cofundador y director ejecutivo de Cloudflare, Matthew Prince, dijo que esta es la interrupción más grave de Cloudflare desde 2019. "La interrupción de hoy es inaceptable... En nombre de todo el equipo de Cloudflare, me gustaría disculparme por los problemas causados a Internet".

Mensajes de error en los sitios web afectados

El CTO de Cloudflare, Dane Knecht, también publicó en plataformas sociales, disculpándose profundamente por el fallo, diciendo que el incidente fue causado por el apoyo de la compañía para descubrir una falla potencial en un servicio con una función de mitigación de bots, que comenzó a fallar después de realizar cambios de configuración de rutina, provocando así una degradación generalizada de la red y otros servicios, en lugar de ser causado por un ataque.

Knecht consideró que el apagón, su impacto y el tiempo de recuperación eran inaceptables. "Estamos trabajando para garantizar que esto nunca vuelva a suceder, pero sabemos que habrá un impacto real. La confianza que nuestros clientes nos han brindado es nuestro activo más valioso y haremos lo que sea necesario para recuperarlo".

Captura de pantalla del tweet del CTO de Cloudflare, Dane Knecht

En la mañana del 19 de noviembre, hora local, Cloudflare publicó un informe completo, describiendo en detalle el incidente que duró casi 5 horas: El impacto comenzó a las 11:28 am del día 18, hora local, y se observaron errores por primera vez en el tráfico HTTP del cliente; a las 14:30 se resolvió el impacto principal, los servicios downstream afectados comenzaron a observar una reducción de errores y la mayoría de los servicios comenzaron a funcionar correctamente; a las 17:06 se reiniciaron todos los servicios downstream, se restablecieron completamente todas las operaciones y terminó el impacto.

Cloudflare dijo que en el momento de la falla, la compañía "inicialmente sospechó erróneamente que los síntomas observados fueron causados por un ataque DDoS a gran escala", y luego identificó correctamente el problema central: el comportamiento de consulta subyacente de ClickHouse que generó este archivo había cambiado. El archivo contenía una gran cantidad de líneas de "firma" repetidas, lo que provocó que el módulo Bot Management desencadenara un error, lo que provocó que el sistema proxy central devolviera un código de error HTTP 5xx para cualquier tráfico que dependiera de este módulo. Al mismo tiempo, cuando se propagó al servidor un archivo de error que contenía un límite excedido de la cantidad de funciones, se desencadenó el pánico del sistema de Cloudflare. Además, esto también afecta a los servicios Workers KV y Access en los que los clientes de la empresa confían en los agentes principales.

Posteriormente, Cloudflare resolvió el problema deteniendo la generación y propagación de archivos de firmas incorrectos e insertando manualmente un archivo conocido en buen estado en la cola de distribución de firmas, luego forzó un reinicio del agente central y la cantidad de códigos de error 5xx volvió a la normalidad.

Cronograma de interrupción de Cloudflare

Cloudflare dijo: "Dada la importancia de Cloudflare en el ecosistema de Internet, cualquier interrupción en cualquiera de nuestros sistemas es inaceptable" y se disculpó por el impacto en los clientes y en Internet en su conjunto.

Cloudflare dijo que la compañía ha comenzado a estudiar cómo fortalecer el sistema para evitar fallas similares en el futuro, incluido el fortalecimiento del procesamiento de ingesta de archivos de configuración generados por Cloudflare de la misma manera que la entrada generada por el usuario; habilitar más interruptores de parada de emergencia globales para funciones; eliminar la posibilidad de que los volcados de memoria u otros informes de errores agoten los recursos del sistema; revisar los modos de falla para detectar condiciones de error en todos los módulos del agente principal.

Según informes de medios extranjeros, menos de un mes antes del accidente, Amazon Cloud Service acababa de experimentar una interrupción de un día que paralizó múltiples servicios de red. Posteriormente, Microsoft Azure Cloud Service y 365 Office Suite también experimentaron interrupciones globales.

Ya en julio de 2024, la empresa de ciberseguridad CrowdStrike provocó un fallo del sistema a gran escala debido a una actualización de software defectuosa, lo que provocó reacciones en cadena como la suspensión de vuelos, el bloqueo de servicios financieros y el retraso de cirugías en hospitales.