Plataformas como Quora, Imgur y Giphy. Servicios y aplicaciones como Slack, Twitch y Airbnb. Webs de noticias como Business Insider y Gizmodo estuvieron ca√≠das durante horas el martes (y en especial sus im√°genes, alojadas en los servidores de Amazon S3). ¬ŅEl motivo? Un simple typo.

La nube de Amazon (Amazon Web Services) es una parte importante de la columna vertebral de Internet. Si falla, buena parte de Internet se cae.

Advertisement

Así de frágil es la red...

Hoy Amazon ha revelado la causa de la ca√≠da del martes. Por supuesto, carga toda la culpa a un empleado (¬Ņo exempleado?) que escribi√≥ mal un comando. Todo empez√≥ cuando depuraban su sistema de facturaci√≥n:

Nos gustar√≠a darte informaci√≥n adicional sobre la interrupci√≥n del servicio que ocurri√≥ en la regi√≥n de Virginia del Norte (US-EAST-1) en la ma√Īana del 28 de febrero. El equipo de Amazon Simple Storage Service (S3) estaba depurando un problema que hac√≠a que el sistema de facturaci√≥n de S3 progresara m√°s lento de lo esperado. A las 9:37 AM PST, un miembro autorizado del equipo de S3 ejecut√≥ un comando de un manual establecido con la intenci√≥n de eliminar un peque√Īo n√ļmero de servidores de uno de los subsistemas S3 que son utilizados por el proceso de facturaci√≥n de S3. Desafortunadamente, una de las entradas del comando se ingres√≥ incorrectamente y elimin√≥ un conjunto de servidores m√°s grande que el previsto. Los servidores que fueron eliminados inadvertidamente soportan otros dos subsistemas S3. Uno de estos subsistemas, el subsistema de √≠ndice, gestiona la informaci√≥n de metadatos y ubicaci√≥n de todos los objetos S3 de la regi√≥n. Este subsistema es necesario para servir todas las solicitudes GET, LIST, PUT y DELETE. El segundo subsistema, el subsistema de colocaci√≥n, gestiona la asignaci√≥n de nuevo almacenamiento y requiere que el subsistema de √≠ndice funcione correctamente para funcionar. El subsistema de colocaci√≥n se utiliza durante las peticiones PUT para asignar almacenamiento a objetos nuevos. Eliminar una porci√≥n significativa de la capacidad hizo que cada uno de estos sistemas requiriera un reinicio completo. Mientras se estaban reiniciando estos subsistemas, S3 no pudo atender solicitudes.

Advertisement

¬ŅPor qu√© tardaron tanto en reiniciarse? Seg√ļn explica Amazon, S3 ha experimentado un crecimiento masivo en los √ļltimos a√Īos y el proceso de reiniciar los servicios y ejecutar los controles de seguridad necesarios para validar la integridad de los metadatos ‚Äútom√≥ m√°s tiempo de lo esperado‚ÄĚ.

La compa√Ī√≠a asegura que est√° implementando cambios en sus sistemas para permitir que se restablezcan m√°s r√°pidamente. Tambi√©n ha declarado la guerra a los errores tipogr√°ficos: en el futuro, sus ingenieros ya no podr√°n eliminar servidores de S3 por debajo de cierto umbral de capacidad.

[Amazon vía The Verge]