Executando verificação de segurança...
5

Cloudflare apresenta post mortem da interrupção catastrófica ocorrida na semana passada

O processo de recuperação dos serviços levou 40 horas devido a falhas consecutivas de energia em três dos seus principais data centers, levando a empresa a ativar servidores de recuperação de desastres na Europa. A Cloudflare coloca a maior parte da culpa na gestão desastrosa da empresa terceirizada que cuida de seus equipamentos, que falhou em notificar que as instalações estavam rodando em geradores de energia, impedindo que a Cloudflare tomasse medidas mais drásticas e mais rapidamente.

Carregando publicação patrocinada...
3

Pelo que entendi, as falhas de energia foram em um único datacenter, o maior entre os 3 que integram o cluster de alta disponibilidade.

Por ser o maior, era nele que estavam boa parte dos serviços que ainda não estavam no cluster de alta disponibilidade. Em outras palavras, o problema ocorreu em um datacenter do cluster, mas o impacto maior foi pelos serviços que estavam centralizados nesse datacenter, fora do cluster.

Apesar do texto dar bastante ênfase nos problemas elétricos, e na falta de aviso antecipado sobre o incidente pela administradora do Datacenter, entendo que isso é um problema para o qual a Cloudflare poderia ter se preparado, mas provavelmente optaram por assumir o risco.

Não posso acreditar que não conheciam os riscos ao:

  1. manter serviços importantes fora do cluster,
  2. depender de atuação manual para ativar as contingências durante o incidente,
  3. aparentemente não ter contingência para alguns serviços "novos" e
  4. depender também de atuação manual para restabelecer os equipamentos principais quando o problema elétrico foi solucionado.

Respeitadas as proporções, é a mesma coisa para os clientes da Cloudflare que foram impactados, pois também poderiam ter contingências, mas para a maioria não vale a pena devido ao alto custo da resiliência e pela "baixa probabilidade" de ocorrer uma falha tão catastrófica em um serviço tão importante.