Como sabrán amazon aws ha tenido la peor caída de todo su historia.
¿Que a fallado?
La causa aparente fue que empezaron ha crearse demasiadas copias de seguridad que agotaron el espacio de almacenamiento de Amazon y provocaron un fallo en una zona (Virgina del Norte). Los sistemas de redundancia, que teóricamente deberían evitar que un fallo en un datacenter afecte al funcionamiento general de todo el conjunto, también fallaron, como resultado toda la zona de Virgina del Norte fallo, con ella sitios tan grandes como Dropbox, Foursquare, Quora, Hootsuite y mi servidor.
Nuestra experiencia con la caída
Nuestra maquina dejo de estar disponible el día 21 a las 10:24 la maquina estaba en la zona EAST-1-D en el status de aws aparecía el siguiente aviso Actualmente estamos investigando las tasas de errores y de latencia con los volúmenes de EBS.
Me conecte al panel de administración y reinicie la maquina. La maquina no terminaba de responder, decidí parar la maquina, se quedo en stopping hasta el día 24 a las 17:30 momento en el que se paro la maquina.
Intente arrancar otra maquina en otra zona de virginia pero era imposible todo virginia estaba caída.
¿ Solución? Arrancar otra maquina en otro sitio de amazon.
Problema, como la ip reservada no se puede utilizar en otra zona tendría que cambiar todos los DNS. Demasiado follón para una pequeña caída, pensaba.
Durante el día 21 fue imposible trabajar con la zona de virginia.
¿Como logre recuperar la maquina?
Día 22.
Tenia un snapshot del día 15, cree un ami y arranque una maquina, ya solo faltaba restaurar el backup de la noche anterior. Entonces realice una prueba, cree un snapshot de la maquina que esta stopping, con sorpresa se realizo correctamente. Cree una ami y arranque una maquina, la maquina funcionaba bien y tuve que realizar mas trabajo.
Información que tiene que dar amazon
¿Como puede fallar toda una zona? Se suponía que cada zona de virginia era un datacenter distinto.
Responde “Experiencia: Amazon Web Services y la caída del día 21-04-11”