Quando me refiro a quedas, seria uma lentidão muito grande no site, onde a CPU chega à atingir 100% de utilização, e a máquina para de funcionar; não encontramos nada de logs de erro, a unica coisa que sabemos é esse alto consumo de processamento, e isso ocorre em determinados horarios de pico, por exemplo das 10 horas da manhã até umas 11:45, durante a tarde próximo as 18h e as vezes 20h; imaginamos que pode ser a quantidade de acessos simultâneos, mas 8 CPUs não seria o suficiente?
quando o servidor está em 100%, quais são os processos que estão causando essa sobrecarga? vc consegue correlacionar com algum processo? o que acontece entre as 10h e as 11h45?
sua explicação está muito genérica, ninguem vai conseguir te ajudar de forma assertiva
Você precisa de dados para entender a situação.
Será que é o excesso de usuários ou uma requisição específica que está consumindo muito recurso (memoria) e seu servidor acaba passando a usar o swap?
Faça o log de todas as requisições, jogue numa planilha e veja quais requisições tomam mais tempo, aí você vai debugar em cima delas se há algo errado.
Tive um problema parecido com minha máquina travava durante a noite mesmo sem acesso fora do normal. Todos os dias amanhecia travada. Era uma máquina simples, de teste, mas acontecia isso. Neste caso, o problema era disco cheio. Muita cache das atualizações armazenada estava lotando o disco.
No momento minha aplicação funciona no google cloud run configurada para escalar a até 100 máquinas. Nunca mais tive nenhum problema