Engenharia de Confiabilidade de Sites (SRE) Aprimore tarefas operacionais com observabilidade, automação e gerenciamento de incidentes
Marcelo Costa
Conteúdo
A Engenharia de Confiabilidade de Sites (Site Reliability Engineering, ou SRE) estabelece conceitos e práticas para que os times aprendam a lidar com eventos inesperados, identificando prioridades e entidades envolvidas, bem como quantificando o impacto no negócio. SREs ajudam toda a organização com a melhoria de processos através do gerenciamento de incidentes: contribuem com o desenvolvimento, testes, releases e análise da infraestrutura, pois detêm um entendimento profundo de observabilidade e ajudam a mitigar danos ao abraçar o caos da imprevisibilidade.
Neste livro, Marcelo Costa se aprofunda no mundo de SRE e no gerenciamento de incidentes. Você vai aprender a identificar quando um determinado serviço não se comporta como o esperado, a severidade de sua interrupção e como observar seus principais indicadores. Com este material, você saberá os pontos de atenção para onde olhar na infraestrutura que abriga os sistemas, com foco em Escalabilidade, Disponibilidade e Resiliência, como são observados, aplicar tecnologias de monitoramento como Métricas, Logs, Traces, e frameworks de performance como SLOs (Objetivos de Nível de Serviço), automação de tarefas e Engenharia do Caos.
Sumário
Parte 1: Fundamentos
- 1 O que é SRE?
- 1.1 Conhecendo SRE
- 1.2 Um pouco de história
- 1.3 Outros times de engenharia de software e SRE
- 2 Competências de SRE
- 2.1 SLOs, SLIs e Orçamento de Erro
- 2.2 Gerenciamento de incidentes
- 2.3 Observabilidade
- 2.4 Desenvolvimento de ferramentas e automação de atividades repetitivas
- 2.5 Engenharia do Caos
- 2.6 O que mais SREs fazem?
- 3 O ciclo de vida do desenvolvimento de software
- 3.1 Ambientes
- 3.2 Uma breve revisão sobre Integração Contínua e Entrega Contínua (CI/CD)
- 3.3 Testes e Quality Assurance
- 3.4 Estratégias de deployments para confiabilidade
- 3.5 Gerenciamento de releases
- 3.6 O serviço está em Produção, e agora?
Parte 2: Infraestrutura
- 4 Arquiteturas de software confiáveis
- 4.1 Escalabilidade
- 4.2 Disponibilidade
- 4.3 Resiliência
- 5 Plataformas de runtime
- 5.1 Soluções On-Premises
- 5.2 Soluções na Nuvem
- 5.3 Outras plataformas
Parte 3: Observabilidade
- 6 Métricas
- 6.1 Os 4 sinais de ouro de SRE
- 6.2 Bancos de dados de série temporal
- 6.3 Cuidados com métricas
- 6.4 OpenTelemetry
- 6.5 Criando uma aplicação de exemplo
- 7 Logs
- 7.1 Logs em ação
- 8 Traces
- 8.1 Traces em ação
- 8.2 Amostragem de Traces
Parte 4: Conceitos de confiabilidade
- 9 Objetivos de Nível de Serviço (SLOs)
- 9.1 SLO
- 9.2 SLIs
- 9.3 Orçamento de Erro
- 10 Boas práticas para alertas
- 10.1 Alertando de acordo com SLOs e SLIs
- 10.2 Alertas e níveis de prioridade
- 10.3 Documentando passos acionáveis para alertas
- 10.4 Lidando com alertas durante o plantão (on-call)
Parte 5: Gerenciamento de incidentes
- 11 Ferramentas de SRE
- 11.1 Metaengenharia
- 11.2 Sobre construir as próprias ferramentas ou adotar soluções existentes no mercado
- 11.3 Sugestões de ferramentas
- 12 O ciclo de vida de um incidente
- 12.1 Problema reportado
- 12.2 Triagem
- 12.3 Diagnóstico
- 12.4 Tratamento
- 12.5 Revisão
- 12.6 Conclusão
- 13 Outras práticas para melhorias de confiabilidade
- 13.1 Orientações básicas
- 13.2 Monitoramento Sintético
- 13.3 Simulações de incidentes
- 13.4 Interruptores de funcionalidades
- 13.5 Redirecionamento de tráfego
- 13.6 Considerações finais
- 14 Bibliografia
- 14.1 Recomendações
Autor

Marcelo Costa
Marcelo Costa é Engenheiro de Confiabilidade de Sites (SRE) com experiência em várias áreas da Engenharia de Software como Suporte, Desenvolvimento, Engenharia de Sistemas, QA e DevOps. Trabalhou na Europa (Dublin, Irlanda) em grandes empresas, como IBM e Twitter, e agora atua como SRE em Chicago, nos Estados Unidos.
Dados do produto
- Número de páginas:
- 304
- ISBN:
- 978-85-5519-396-5
- Data publicação:
- 02/2025