Engenharia de Confiabilidade de Sites (SRE) Aprimore tarefas operacionais com observabilidade, automação e gerenciamento de incidentes

Marcelo Costa

*Você terá acesso às futuras atualizações do livro.

Conteúdo

A Engenharia de Confiabilidade de Sites (Site Reliability Engineering, ou SRE) estabelece conceitos e práticas para que os times aprendam a lidar com eventos inesperados, identificando prioridades e entidades envolvidas, bem como quantificando o impacto no negócio. SREs ajudam toda a organização com a melhoria de processos através do gerenciamento de incidentes: contribuem com o desenvolvimento, testes, releases e análise da infraestrutura, pois detêm um entendimento profundo de observabilidade e ajudam a mitigar danos ao abraçar o caos da imprevisibilidade.

Neste livro, Marcelo Costa se aprofunda no mundo de SRE e no gerenciamento de incidentes. Você vai aprender a identificar quando um determinado serviço não se comporta como o esperado, a severidade de sua interrupção e como observar seus principais indicadores. Com este material, você saberá os pontos de atenção para onde olhar na infraestrutura que abriga os sistemas, com foco em Escalabilidade, Disponibilidade e Resiliência, como são observados, aplicar tecnologias de monitoramento como Métricas, Logs, Traces, e frameworks de performance como SLOs (Objetivos de Nível de Serviço), automação de tarefas e Engenharia do Caos.

Saiba o que você vai aprender

 

Sumário

Parte 1: Fundamentos

  • 1 O que é SRE?
  • 1.1 Conhecendo SRE
  • 1.2 Um pouco de história
  • 1.3 Outros times de engenharia de software e SRE
  • 2 Competências de SRE
  • 2.1 SLOs, SLIs e Orçamento de Erro
  • 2.2 Gerenciamento de incidentes
  • 2.3 Observabilidade
  • 2.4 Desenvolvimento de ferramentas e automação de atividades repetitivas
  • 2.5 Engenharia do Caos
  • 2.6 O que mais SREs fazem?
  • 3 O ciclo de vida do desenvolvimento de software
  • 3.1 Ambientes
  • 3.2 Uma breve revisão sobre Integração Contínua e Entrega Contínua (CI/CD)
  • 3.3 Testes e Quality Assurance
  • 3.4 Estratégias de deployments para confiabilidade
  • 3.5 Gerenciamento de releases
  • 3.6 O serviço está em Produção, e agora?

Parte 2: Infraestrutura

  • 4 Arquiteturas de software confiáveis
  • 4.1 Escalabilidade
  • 4.2 Disponibilidade
  • 4.3 Resiliência
  • 5 Plataformas de runtime
  • 5.1 Soluções On-Premises
  • 5.2 Soluções na Nuvem
  • 5.3 Outras plataformas

Parte 3: Observabilidade

  • 6 Métricas
  • 6.1 Os 4 sinais de ouro de SRE
  • 6.2 Bancos de dados de série temporal
  • 6.3 Cuidados com métricas
  • 6.4 OpenTelemetry
  • 6.5 Criando uma aplicação de exemplo
  • 7 Logs
  • 7.1 Logs em ação
  • 8 Traces
  • 8.1 Traces em ação
  • 8.2 Amostragem de Traces

Parte 4: Conceitos de confiabilidade

  • 9 Objetivos de Nível de Serviço (SLOs)
  • 9.1 SLO
  • 9.2 SLIs
  • 9.3 Orçamento de Erro
  • 10 Boas práticas para alertas
  • 10.1 Alertando de acordo com SLOs e SLIs
  • 10.2 Alertas e níveis de prioridade
  • 10.3 Documentando passos acionáveis para alertas
  • 10.4 Lidando com alertas durante o plantão (on-call)

Parte 5: Gerenciamento de incidentes

  • 11 Ferramentas de SRE
  • 11.1 Metaengenharia
  • 11.2 Sobre construir as próprias ferramentas ou adotar soluções existentes no mercado
  • 11.3 Sugestões de ferramentas
  • 12 O ciclo de vida de um incidente
  • 12.1 Problema reportado
  • 12.2 Triagem
  • 12.3 Diagnóstico
  • 12.4 Tratamento
  • 12.5 Revisão
  • 12.6 Conclusão
  • 13 Outras práticas para melhorias de confiabilidade
  • 13.1 Orientações básicas
  • 13.2 Monitoramento Sintético
  • 13.3 Simulações de incidentes
  • 13.4 Interruptores de funcionalidades
  • 13.5 Redirecionamento de tráfego
  • 13.6 Considerações finais
  • 14 Bibliografia
  • 14.1 Recomendações

Autor

Marcelo Costa

Marcelo Costa é Engenheiro de Confiabilidade de Sites (SRE) com experiência em várias áreas da Engenharia de Software como Suporte, Desenvolvimento, Engenharia de Sistemas, QA e DevOps. Trabalhou na Europa (Dublin, Irlanda) em grandes empresas, como IBM e Twitter, e agora atua como SRE em Chicago, nos Estados Unidos.

Dados do produto

Número de páginas:
304
ISBN:
978-85-5519-396-5
Data publicação:
02/2025

Compartilhe!

Compartilhe no Facebook Compartilhe no Twitter