ChatGPT y Sora han vuelto a caer. OpenAI: causado por el proveedor ascendente y aún en reparación

En la madrugada del 27 de diciembre, OpenAI anunció:El chatbot ChatGPT, el modelo de generación de vídeo Sora y la API han experimentado errores importantes. La mayoría de ellos llevan varias horas caídos, pero se ha identificado el problema y ha comenzado la recuperación. La interrupción comenzó alrededor de la 1:30 p. m., hora del este, el 26 de diciembre. El sitio web de monitoreo del estado de la red Downdetector afirmó que por la tarde, más de 15.000 usuarios informaron problemas, principalmente relacionados con ChatGPT. En la tarde del mismo día, el número de denuncias se había reducido a menos de 700.

OpenAI emitió de inmediato un informe que indica que ChatGPT, API y Sora actualmente tienen altas tasas de error y que el problema es causado por proveedores ascendentes.

Fuente de la imagen: OpenAI

Según informes de medios anteriores, OpenAI no especificó el "proveedor ascendente" relacionado con el problema, pero su proveedor exclusivo de nube, Microsoft, informó que había un "problema de energía" en uno de sus centros de datos. El problema ocurrió al mismo tiempo que el problema de OpenAI y afectó a América del Norte. Al mismo tiempo, también hubo problemas con los juegos en la nube de Xbox. Poco después de las cinco de la tarde. ET del 26 de diciembre, Microsoft dijo que había "restaurado completamente la energía" en el centro de datos afectado.

A finales de este verano, ChatGPT tenía más de 200 millones de usuarios activos diarios. Desde su lanzamiento, los productos populares de OpenAI, incluido ChatGPT, han experimentado múltiples interrupciones.

La interrupción a gran escala más reciente se produjo el 11 de diciembre, unos días después del lanzamiento de Sora. Todos los servicios de OpenAI, incluidos ChatGPT, API y Sora, experimentaron una grave degradación del rendimiento o incluso una indisponibilidad total entre las 3:16 p. m. y las 7:38 p. m., hora del Pacífico, el 11 de diciembre, con una duración de más de cuatro horas. Esta interrupción se debió a una mala configuración del servicio de telemetría recién implementado, que sobrecargó los planos de control de cientos de clústeres de Kubernetes en todo el mundo, provocando fallas en cascada en sistemas críticos.