NIC.br

Ir para o conteúdo
13 DEZ 2018

Facebook estabelece recuperação de desastre após furacão


Abranet - 12/12/2018 - [gif]


Autor: Roberta Prescott
Assunto: IX Fórum 12

A passagem do furacão Sandy, em 2012, ascendeu um alerta para o Facebook. Haveria possibilidade de o furacão atingir Ashburn, onde se localiza um dos datacenter da empresa. O que aconteceria se o datacenter em Ashburn fosse atingido? “A gente não poderia conviver com esta falta de resposta”, contou Rodrigo Broilo, do Facebook, durante apresentação sobre disaster recovery at the edge no IX Fórum 12, realizado nesta semana em São Paulo.

Para saber como funcionaria o Facebook se perdesse uma região inteira foi criado um projeto batizado de “storm”, visando à construção de ferramentas para fazer testes em larga escala e que envolveu toda a área engenharia para fazer o planejamento para desastres.

A pergunta a ser respondida era se o Facebook poderia rodar sem um dos datacenters regionais, como ficariam as centenas de sistemas e se seria possível mudar os usuários para fora da região. Além disto, o projeto buscava entender se a companhia teria capacidade suficiente em outra região para receber os usuários movidos de outras regiões e se haveria suficiente capacidade no backbone de rede para redirecionar o tráfego.   

O primeiro projeto dos testes, chamado de Sandstorm, durou de outubro 2012 a junho 2014 e foi motivado pelo furacão Sandy. “Aprendemos bastante com o Sandstorm. Por exemplo, vimos que o nosso principal sistema de monitoramento estava em Ashburn, que é uma coisa singela, mas que faria o Facebook navegar às cegas. O teste foi realizado, região ficou apagada e nada de consequência aconteceu”, contou.

Depois de Sandstorm, outros testes foram realizados: o Icestorm em janeiro de 2015, o Thunderstorm em junho de 2015, o Firestorm em outubro de 2015, o Sandstorm 2 em maio de 2016, o Thunderstorm 2 em julho de 2016, o Firestorm 2 em outubro de 2016. “Somente com testes repetidos poderíamos melhorar o plano de desastre recover”, explicou.

O passo seguinte do datacenter, disse Broilo, foi trabalhar a recuperação de desastres no fim a fim, porque, apesar de o desafio ser enorme no datacenter, o Facebook controla fim a fim e tem de ir além à infraestrutura de datacenter, chegando à borda da rede, por onde os usuários se conectam com o Facebook. Broilo destacou que falhas vão acontecer quando se trata da internet e o ponto é como minimizar o impacto para as pessoas e mover o tráfego na falha.