Aquí hay cinco cosas importantes que necesita saber sobre la interrupción global de AWS que afectó a millones de personas, desde qué causó y resolvió la interrupción masiva de AWS hasta si la IA tuvo un impacto potencial.
          
Una masiva interrupción global de 15 horas de AWS el lunes afectó a millones de personas y empresas, afectando todo, desde servicios de pago y aplicaciones de comercio financiero hasta sitios web de redes sociales y software comercial.
“Estas cosas pueden sucederle a cualquier proveedor de nube pública, a cualquier proveedor de nube privada: AWS, Microsoft, nosotros, incluida nuestra propia plataforma de nube”, dijo Robert Keblusek, director de innovación y tecnología de Sentinel Technologies, con sede en Downers Grove, Illinois, una importante empresa de seguridad y socios de AWS.
“Esto es tecnología. Puede verse afectada por errores humanos. Puede verse afectada por fallas en los equipos. No importa cuántas salvaguardas se establezcan, estas cosas pueden suceder”, dijo Keblusek. “La IA está acelerando el cambio en la infraestructura de la nube”, añadió.
(Repite: Las interrupciones en la nube aumentarán ‘cada vez más’ debido al uso de IA después de que la interrupción de AWS sacuda a más de 1.000 empresas, CEO de Sats Tech)
La causa principal del error de AWS fue un error del sistema de nombres de dominio (DNS) que impedía que las aplicaciones encontraran la dirección correcta para DynamoDB. DynamoDB de AWS es una base de datos basada en la nube que almacena información del usuario y otros datos importantes.
Según Ookla, propietario de Downdetector, más de 4 millones de usuarios han informado problemas con Downdetector relacionados con interrupciones de AWS. Según se informa, la interrupción de AWS afectó a más de 1.000 empresas.
A las 6:01 p.m. ET del lunes, AWS dijo que todos los servicios de AWS habían vuelto a la normalidad, aunque algunos servicios aún experimentarían problemas durante las próximas horas.
CRN desglosa el período exacto de la interrupción de AWS, lo que salió mal, los detalles sobre el sitio del centro de datos de AWS que causó la falla y si la afluencia de tecnología de inteligencia artificial pudo haber jugado un papel en el problema.
“A medida que las infraestructuras de IA se construyen más rápido y luego les imponen cada vez más presión, eso, por supuesto, podría aumentar potencialmente la probabilidad de que sucedan cosas como esta”, dijo Keblusek. “Ahora hay cambios rápidos en esos centros de datos y hay una enorme cantidad de cargas de trabajo y solicitudes que llegan a esos centros de datos… AWS lo ha manejado de manera muy profesional”.
Esto es lo que todo socio, cliente y usuario de AWS necesita saber sobre la reciente interrupción de la nube de AWS.
          
¿Fue un ciberataque?
AWS dijo que el problema no fue causado por un ciberataque ni relacionado con la seguridad.
La principal causa del fallo de AWS es un problema técnico de DNS.
“Hemos determinado que la causa del evento es un problema con la resolución de DNS para los puntos finales regionales del servicio DynamoDB”, dijo Amazon en su panel de AWS Health.
El problema del DNS provocó un efecto de cascada que se extendió por la amplia cartera de servicios de AWS utilizados por millones de usuarios todos los días, incluidos sitios web, productos y aplicaciones digitales.
“No hay indicios de que esta interrupción de AWS haya sido causada por un ciberataque”, dijo Robert Jardine, director digital de la firma de ciberseguridad NymVPN, en un comunicado a CRN. “Estos problemas pueden ocurrir cuando los sistemas se sobrecargan o una parte clave de la red deja de funcionar, y debido a que muchos sitios web y aplicaciones dependen de AWS, el impacto se extiende rápidamente”.
El gigante de las nubes no ha informado de ninguna evidencia de interferencia externa.
Sin embargo, AWS no dice cuál fue la causa exacta que creó el problema de DNS inicial.
          
¿Qué y dónde está el sitio AWS US-EAST-1?
El problema de AWS que causó efectos dominó en todo el mundo comenzó en el centro de datos US-East-1.
AWS US-East-1 es el sitio de servicios web más grande y antiguo de la compañía, ubicado en el norte de Virginia.
El norte de Virginia es conocido por muchos como el centro de datos central del mundo, ya que el área alberga una gran cantidad de centros de datos de varios proveedores debido a su ubicación histórica y estratégica cerca de Washington, DC.
El sitio del centro de datos US-East-1 experimentó interrupciones en 2021 y 2020, pero no fueron tan espectaculares como la interrupción de esta semana.
Un error de DNS en un centro de datos puede ocurrir debido a un problema de mantenimiento, una falla del servidor o un error humano.
“Al final del día, un problema de DNS le puede pasar a cualquiera”, dijo Keblusek. “Ya ha sucedido antes y es muy probable que vuelva a suceder… Estos fallos que estamos viendo son poco frecuentes. AWS utiliza una infraestructura realmente sólida”.
          
¿Podría la IA ser la culpable oculta?
Amazon es uno de los mayores consumidores de IA del mundo e invierte decenas de miles de millones de dólares cada año en nueva infraestructura de IA, centros de datos centrados en IA y servicios de IA.
Bob Venero, director ejecutivo de Future Tech Enterprise, con sede en Fort Lauderdale, Florida, dijo que el futuro verá más interrupciones a medida que los usuarios y las empresas utilicen más la IA.
“Habrá cada vez más”, dijo Venero. “Simplemente van a seguir aumentando, especialmente a medida que veamos que se implementan más capacidades de IA en la empresa”.
Keblusek, CTO de Sentinel Technologies, dijo: “La IA está acelerando el cambio en la infraestructura de la nube.
“A medida que las infraestructuras de IA se construyen más rápido y luego les imponen cada vez más presión, eso, por supuesto, podría aumentar potencialmente la probabilidad de que sucedan cosas como esta”, dijo Keblusek. “Estos centros de datos están experimentando cambios rápidos en este momento, y en este momento están llegando enormes cargas de trabajo y solicitudes a estos centros de datos”.
Keblusek, sin embargo, dijo que el problema podría ser simplemente un error humano.
“¿Podría ser la IA la causa? ¿Podría ser tráfico adicional? ¿Podría ser un error humano? No tengo una respuesta”, dijo.
AWS dijo que la compañía “pronto compartiría un resumen detallado posterior al evento” de la causa exacta de la interrupción.
          
Explicación del cronograma de inactividad de 15 horas de AWS
El problema de AWS comenzó a las 2:49 a. m. ET del 20 de octubre.
A las 6:01 p.m. ET, AWS dijo que todos los servicios de AWS habían vuelto a la normalidad, aunque algunos servicios aún experimentarían problemas durante las próximas horas.
Eso significa que el corte duró aproximadamente 15 horas el lunes.
“Entre las 11:49 p.m. PT del 19 de octubre y las 2:24 p.m. PT del 20 de octubre, experimentamos un aumento en errores y latencia para los servicios de AWS en la región US-EAST-1. Además, esta vez también vimos problemas con servicios o características que dependen de los puntos finales US-EAST-1, como IAM y tablas globales DynamoDB”, dijo Amazon a través de su panel de AWS Health.
Temprano en la mañana del 20 de octubre, AWS resolvió el problema de DNS de DynamoDB.
Sin embargo, luego comenzó a experimentar problemas con “un subsistema EC2 interno responsable de lanzar instancias EC2 debido a su dependencia de DynamoDB”, dijo AWS.
Además, las comprobaciones de estado del Network Load Balancer también “se rompieron, provocando problemas de conectividad de red en múltiples servicios”, incluidos Lambda, DynamoDB y CloudWatch.
“A las 3:01 p.m. PT, todos los servicios de AWS habían vuelto a la normalidad”, dijo AWS.
Algunos servicios, como AWS Config, Redshift y Connect, seguirán teniendo mensajes pendientes que AWS terminará de procesar en las próximas horas, según AWS Health Dashboard.
          
Un ex ejecutivo de AWS opina; Las acciones de Amazon están subiendo
Corey Beck es un ex arquitecto senior de soluciones en AWS Industries que dejó AWS este año para convertirse en CTO de DataStrike.
“La creación de redes es sin duda un componente fundamental de los servicios de AWS. Cuando tropieza en una región como US-East-1, las ramificaciones son de gran alcance; se extiende a EC2, S3, DynamoDB, RDS y prácticamente todos sus servicios dependientes”, dijo Beck en un correo electrónico a CRN.
“Hay que diseñar teniendo en cuenta el fracaso, porque es inevitable que suceda”, afirmó. “Los sistemas resilientes no se tratan de evitar fallos, sino de hacerlos casi invisibles para los clientes”.
Dijo que simplemente trasladar cargas de trabajo a la nube no es suficiente.
“La verdadera resiliencia requiere planificación, diseño multirregional, pruebas periódicas y una mentalidad que asuma que todo se romperá”, afirmó Beck. “Eso es lo que separa un pequeño contratiempo de un completo fracaso”.
Es importante señalar que el mercado en general no parece pensar que Amazon se verá afectado por una disrupción global.
Curiosamente, las acciones de Amazon ( AMZN ) no se vieron afectadas el lunes.
De hecho, las acciones de Amazon ahora cotizan con un alza del 2 por ciento el martes a alrededor de 221 dólares por acción.



