Cómo un comando mal escrito por un ingeniero de Amazon dejó buena parte de Internet inaccesible durante horas

Plataformas como Quora, Imgur y Giphy. Servicios y aplicaciones como Slack, Twitch y Airbnb. Webs de noticias como Business Insider y Gizmodo estuvieron caídas durante horas el martes (y en especial sus imágenes, alojadas en los servidores de Amazon S3). ¿El motivo? Un simple typo.

La nube de Amazon (Amazon Web Services) es una parte importante de la columna vertebral de Internet. Si falla, buena parte de Internet se cae.

Así de frágil es la red…

REMINDER: a typo can take large chunks of the internet offline. this whole thing is held together w/ duct tape https://t.co/scYS6f1X8L

— Charlie Warzel (@cwarzel) March 2, 2017

Hoy Amazon ha revelado la causa de la caída del martes. Por supuesto, carga toda la culpa a un empleado (¿o exempleado?) que escribió mal un comando. Todo empezó cuando depuraban su sistema de facturación:

Nos gustaría darte información adicional sobre la interrupción del servicio que ocurrió en la región de Virginia del Norte (US-EAST-1) en la mañana del 28 de febrero. El equipo de Amazon Simple Storage Service (S3) estaba depurando un problema que hacía que el sistema de facturación de S3 progresara más lento de lo esperado. A las 9:37 AM PST, un miembro autorizado del equipo de S3 ejecutó un comando de un manual establecido con la intención de eliminar un pequeño número de servidores de uno de los subsistemas S3 que son utilizados por el proceso de facturación de S3. Desafortunadamente, una de las entradas del comando se ingresó incorrectamente y eliminó un conjunto de servidores más grande que el previsto. Los servidores que fueron eliminados inadvertidamente soportan otros dos subsistemas S3. Uno de estos subsistemas, el subsistema de índice, gestiona la información de metadatos y ubicación de todos los objetos S3 de la región. Este subsistema es necesario para servir todas las solicitudes GET, LIST, PUT y DELETE. El segundo subsistema, el subsistema de colocación, gestiona la asignación de nuevo almacenamiento y requiere que el subsistema de índice funcione correctamente para funcionar. El subsistema de colocación se utiliza durante las peticiones PUT para asignar almacenamiento a objetos nuevos. Eliminar una porción significativa de la capacidad hizo que cada uno de estos sistemas requiriera un reinicio completo. Mientras se estaban reiniciando estos subsistemas, S3 no pudo atender solicitudes.

¿Por qué tardaron tanto en reiniciarse? Según explica Amazon, S3 ha experimentado un crecimiento masivo en los últimos años y el proceso de reiniciar los servicios y ejecutar los controles de seguridad necesarios para validar la integridad de los metadatos “tomó más tiempo de lo esperado”.

La compañía asegura que está implementando cambios en sus sistemas para permitir que se restablezcan más rápidamente. También ha declarado la guerra a los errores tipográficos: en el futuro, sus ingenieros ya no podrán eliminar servidores de S3 por debajo de cierto umbral de capacidad.

[Amazon vía The Verge]

Cómo un comando mal escrito por un ingeniero de Amazon dejó buena parte de Internet inaccesible durante horas

Lo último

Por primera vez filmaron a un raro tiburón duende, vivo y en su hábitat natural

Estados Unidos está electrificando partes de sus ríos para frenar una invasión de peces que amenaza con alterar ecosistemas enteros. La carpa asiática se ha convertido en un problema nacional

La conexión del futuro ya está aquí: un sistema óptico supera ampliamente las velocidades del Wi-Fi tradicional

Una nueva hipótesis científica plantea que el cerebro humano podría interactuar con las frecuencias electromagnéticas de la Tierra. Investigadores estudian si estas resonancias influyen en la conciencia

Dónde ver Brasil vs Marruecos gratis en directo: cómo ver el Mundial 2026 desde cualquier lugar

Dónde ver Catar vs Suiza gratis online: el Mundial 2026 en directo

A veces una sola cifra basta para explicar el mundo en que vivimos. Apenas 56.000 personas poseen hoy más riqueza que la mitad de la población del planeta

Un agente caído en desgracia recibe una última oportunidad en este thriller que llega a Netflix

Artículos relacionados

Cómo un comando mal escrito por un ingeniero de Amazon dejó buena parte de Internet inaccesible durante horas

Por primera vez filmaron a un raro tiburón duende, vivo y en su hábitat natural

Estados Unidos está electrificando partes de sus ríos para frenar una invasión de peces que amenaza con alterar ecosistemas enteros. La carpa asiática se ha convertido en un problema nacional

La conexión del futuro ya está aquí: un sistema óptico supera ampliamente las velocidades del Wi-Fi tradicional

Una nueva hipótesis científica plantea que el cerebro humano podría interactuar con las frecuencias electromagnéticas de la Tierra. Investigadores estudian si estas resonancias influyen en la conciencia

Dónde ver Brasil vs Marruecos gratis en directo: cómo ver el Mundial 2026 desde cualquier lugar

Dónde ver Catar vs Suiza gratis online: el Mundial 2026 en directo

A veces una sola cifra basta para explicar el mundo en que vivimos. Apenas 56.000 personas poseen hoy más riqueza que la mitad de la población del planeta

Un agente caído en desgracia recibe una última oportunidad en este thriller que llega a Netflix

Artículos relacionados

Muere Cheems, el icónico perro de los memes, durante una cirugía

Los Amazon Echo antiguos también se beneficiarán de Matter

Telefonillo inteligente Ring Intercom: análisis

El extraño caso de los usuarios que compran cámaras en Amazon y reciben comida de gatos

Amazon hace que su robot de vigilancia sea aún más espeluznante con la integración con Ring

¿Por qué ha comprado Amazon al creador de la Roomba?