Pelo que entendi, as falhas de energia foram em um único datacenter, o maior entre os 3 que integram o cluster de alta disponibilidade.
Por ser o maior, era nele que estavam boa parte dos serviços que ainda não estavam no cluster de alta disponibilidade. Em outras palavras, o problema ocorreu em um datacenter do cluster, mas o impacto maior foi pelos serviços que estavam centralizados nesse datacenter, fora do cluster.
Apesar do texto dar bastante ênfase nos problemas elétricos, e na falta de aviso antecipado sobre o incidente pela administradora do Datacenter, entendo que isso é um problema para o qual a Cloudflare poderia ter se preparado, mas provavelmente optaram por assumir o risco.
Não posso acreditar que não conheciam os riscos ao:
- manter serviços importantes fora do cluster,
- depender de atuação manual para ativar as contingências durante o incidente,
- aparentemente não ter contingência para alguns serviços "novos" e
- depender também de atuação manual para restabelecer os equipamentos principais quando o problema elétrico foi solucionado.
Respeitadas as proporções, é a mesma coisa para os clientes da Cloudflare que foram impactados, pois também poderiam ter contingências, mas para a maioria não vale a pena devido ao alto custo da resiliência e pela "baixa probabilidade" de ocorrer uma falha tão catastrófica em um serviço tão importante.