Plataformas como Quora, Imgur y Giphy. Servicios y aplicaciones como Slack, Twitch y Airbnb. Webs de noticias como Business Insider y Gizmodo estuvieron caídas durante horas el martes (y en especial sus imágenes, alojadas en los servidores de Amazon S3). ¿El motivo? Un simple typo.

La nube de Amazon (Amazon Web Services) es una parte importante de la columna vertebral de Internet. Si falla, buena parte de Internet se cae.

Así de frágil es la red...

Hoy Amazon ha revelado la causa de la caída del martes. Por supuesto, carga toda la culpa a un empleado (¿o exempleado?) que escribió mal un comando. Todo empezó cuando depuraban su sistema de facturación:

Nos gustaría darte información adicional sobre la interrupción del servicio que ocurrió en la región de Virginia del Norte (US-EAST-1) en la mañana del 28 de febrero. El equipo de Amazon Simple Storage Service (S3) estaba depurando un problema que hacía que el sistema de facturación de S3 progresara más lento de lo esperado. A las 9:37 AM PST, un miembro autorizado del equipo de S3 ejecutó un comando de un manual establecido con la intención de eliminar un pequeño número de servidores de uno de los subsistemas S3 que son utilizados por el proceso de facturación de S3. Desafortunadamente, una de las entradas del comando se ingresó incorrectamente y eliminó un conjunto de servidores más grande que el previsto. Los servidores que fueron eliminados inadvertidamente soportan otros dos subsistemas S3. Uno de estos subsistemas, el subsistema de índice, gestiona la información de metadatos y ubicación de todos los objetos S3 de la región. Este subsistema es necesario para servir todas las solicitudes GET, LIST, PUT y DELETE. El segundo subsistema, el subsistema de colocación, gestiona la asignación de nuevo almacenamiento y requiere que el subsistema de índice funcione correctamente para funcionar. El subsistema de colocación se utiliza durante las peticiones PUT para asignar almacenamiento a objetos nuevos. Eliminar una porción significativa de la capacidad hizo que cada uno de estos sistemas requiriera un reinicio completo. Mientras se estaban reiniciando estos subsistemas, S3 no pudo atender solicitudes.

¿Por qué tardaron tanto en reiniciarse? Según explica Amazon, S3 ha experimentado un crecimiento masivo en los últimos años y el proceso de reiniciar los servicios y ejecutar los controles de seguridad necesarios para validar la integridad de los metadatos “tomó más tiempo de lo esperado”.

Advertisement

La compañía asegura que está implementando cambios en sus sistemas para permitir que se restablezcan más rápidamente. También ha declarado la guerra a los errores tipográficos: en el futuro, sus ingenieros ya no podrán eliminar servidores de S3 por debajo de cierto umbral de capacidad.

[Amazon vía The Verge]