Executando verificação de segurança...
-3

[Artigo | Tradução] Como o Banco Itaú rastreia 1,5 bilhão de métricas diárias localmente e na AWS com o uso do Grafana e observabilidade


Artigo original pode ser encontrado em GrafanaLabs, escrito por Trevor Jones


O Banco Itaú do Brasil é o maior banco da América Latina, portanto, quando problemas de performance e uptime afetam suas aplicações, as consequências podem ser enormes.

“Isso pode impactar toda a economia do Brasil. Pode prejudicar os negócios de outros bancos também”, disse Ana Paula Genari Martin, gerente de SRE do Banco Itaú, em sua recente palestra no ObservabilityCON.

E manter esses aplicativos em execução não é fácil, considerando o tamanho das operações digitais. O Banco Itaú possui cerca de 16.000 funcionários de tecnologia trabalhando em 1.840 equipes multidisciplinares, incluindo 15.000 engenheiros trabalhando em várias frentes. Eles também consomem 1,5 bilhão de métricas por dia em data centers locais e na AWS.

Claro, nenhuma ferramenta ou time é perfeito. Ocorrerão incidentes e os SREs e as equipes de operações e de aplicações/funcionalidades precisam responder rapidamente. Ou, como disse Martin em tom de brincadeira: “O fracasso acontece. Por causa disso, tenho um trabalho a fazer.” E nenhuma equipe sozinha poderia gerenciar todo esse risco, e é por isso que o Banco Itaú construiu uma plataforma de observabilidade que é disponibilizada como um serviço para capacitar todo o negócio a responder a problemas mais rapidamente.

“Meu objetivo e o objetivo da minha equipe é permitir que as equipes que estão agregando valor ou voltadas para o cliente aproveitem sua capacidade de serem resilientes e alcançar a excelência durante uma crise”, disse Martin.

ObservabilityCon 2022

Como usar o Grafana para resolver um quebra-cabeça com 1,5 bilhão de peças

O Banco Itaú foi pioneiro nesse espaço, tendo sido o primeiro banco do Brasil a construir uma página na web e presença digital. “Acreditamos que a tecnologia é o que nos ajudará a manter nossos clientes felizes, nos amando e mantendo esse relacionamento realmente direto”, disse Martin.

Essa mentalidade de visão de futuro se traduziu em uma grande pegada de infraestrutura que gera enormes quantidades de dados. Eles têm aproximadamente 2.000 contas da AWS, bem como quase 13.000 hosts locais, e ingerem mais de 1,5 bilhão de amostras métricas todos os dias por meio do Prometheus.

Para controlar todos esses recursos, eles usam Thanos, Prometheus e Grafana para métricas; Splunk para logs; Yaeger (Jaeger, acho que foi um tipo no artigo) para rastreamento; e AppDynamics para monitoramento de desempenho de aplicativos. Eles também incorporam "engenharia de caos" (chaos enginnerring) na produção para melhor proteção contra problemas futuros.

More advanced business units use Grafana dashboards like this to track UX.

E embora o Banco Itaú tenha uma equipe de 50 pessoas cuidando das operações, isso não é suficiente para lidar com a enxurrada de tíquetes que pode sser gerado por uma organização tão grande. Por isso construíram uma plataforma de observabilidade como serviço, para que todos tivessem acesso às informações.

“É importante para nós que as pessoas possam usar isso como um serviço, porque não seremos capazes de atender a todos se eles apenas abrirem muitos tickets toda vez que quiserem criar um painel ou alterar um alarme ou alerta”, disse Martin.

Para apoiar essa jornada, eles criaram uma enorme biblioteca de documentação para que os usuários tenham autonomia para lidar com essas tarefas sozinhos. Há também um site de perguntas e respostas semelhante ao Stack Overflow, onde os usuários podem enviar perguntas que são revisadas pelos engenheiros da equipe de Martin. Se surgirem dúvidas repetidamente, as soluções serão adicionadas à documentação.

Hoje, eles têm mais de 500 Grafana organizations e aproximadamente 4.500 painéis para ajudar a visualizar dados e melhorar a capacidade de observação. Há limites para quem pode editar esses painéis, mas qualquer pessoa na empresa pode visualizá-los ou compartilhá-los para obter melhores insights.

“Estamos usando o Grafana para entender o que está acontecendo, entender e reagir durante um incidente”, disse Martin.

Gerenciando a mudança para a AWS e o que vem a seguir

A Grafana tem sido uma parte fundamental da adoção da AWS pelo Banco Itaú. O banco pretende mover metade de sua infraestrutura local para a nuvem até o final do ano, incluindo a transição dos mainframes legados, para atender melhor às necessidades dos clientes em constante mudança. Eles estão usando o Grafana para monitorar seus canais digitais hospedados na nuvem.

“Nossos clientes estão se tornando digitais”, disse Martin. “Ninguém mais vai ao escritório, eles estão usando smartphones ou banco online, então é importante termos um bom desempenho.”

No início da mudança, houve um sub-release interno da AWS que afetou suas operações digitais, então os dois gigantes desenvolveram um sistema para evitar esses tipos de incidentes no futuro. Eles configuram painéis de semáforos no Grafana que fornecem uma visão geral de alto nível de desempenho em componentes críticos de infraestrutura, incluindo AWS Auto Scaling, Elastic Load Balancing e AWS Global Accelerator.

“Se a AWS fizer uma alteração em qualquer uma dessas peças, eles podem vir e ver neste painel ou até mesmo receber um alerta [do Alertmanager] … para que possam ser avisados se algo que fizerem impactar o Banco Itaú”, disse Martin. “Colaboramos para que possamos responder rapidamente se algo der errado ou se estivermos interferindo nos negócios uns dos outros.”

Se uma dessas luzes não estiver verde, os usuários podem clicar nela para obter detalhes adicionais. Por exemplo, com o Application Load Balancer, eles podem clicar no ícone de semáforo correspondente no Grafana para obter mais detalhes e entender melhor o comportamento dentro de seu ambiente.

*This screenshot shows how SREs can drill down on traffic light icons to get a deeper look at performance of their AWS infrastructure.*

Eles também estão subindo na ferramenta, monitorando seus aplicativos hospedados na AWS e métricas de negócios para garantir que os clientes possam seguir a jornada conforme o esperado. Para as equipes que estão mais avançadas em sua jornada de observabilidade, elas podem combinar sua experiência no comportamento do usuário com os dados do Grafana para identificar mais facilmente possíveis problemas do cliente.

No futuro, o Banco Itaú estará buscando adotar SLIs e SLOs para seguir as melhores práticas de SRE. Eles também planejam construir um único painel no Grafana para que a equipe não alterne constantemente entre as ferramentas de logs, métricas, rastreamento e resposta a incidentes.

Como parte desses esforços de consolidação, eles também estão buscando uma abordagem híbrida para logs, com o potencial de adicionar Grafana Loki ao mix. E enquanto eles dependem fortemente de Thanos, Martin disse que tem alguns desafios, então eles estão olhando para Grafana Mimir para complementar suas necessidades de armazenamento Prometheus.

Confira a palestra completa do Banco Itaú sob demanda para saber mais sobre como eles gerenciam a confiabilidade e o desempenho do site. E há muito mais conteúdo do ObservabilityCON para explorar, incluindo notícias sobre os mais recentes projetos de código aberto do Grafana Labs e sessões lideradas por especialistas do JPMorgan Chase, Wells Fargo, Adobe e muito mais!

Carregando publicação patrocinada...
2