Engenharia de Confiabilidade de Sites (SRE) Aprimore tarefas operacionais com observabilidade, automação e gerenciamento de incidentes

Marcelo Costa

E-book* (.pdf, .epub)
R$ 39,90
Impresso
R$ 69,90
E-book + Impresso
R$ 89,90

*Você terá acesso às futuras atualizações do livro.

Conteúdo

A Engenharia de Confiabilidade de Sites (Site Reliability Engineering, ou SRE) estabelece conceitos e práticas para que os times aprendam a lidar com eventos inesperados, identificando prioridades e entidades envolvidas, bem como quantificando o impacto no negócio. SREs ajudam toda a organização com a melhoria de processos através do gerenciamento de incidentes: contribuem com o desenvolvimento, testes, releases e análise da infraestrutura, pois detêm um entendimento profundo de observabilidade e ajudam a mitigar danos ao abraçar o caos da imprevisibilidade.

Neste livro, Marcelo Costa se aprofunda no mundo de SRE e no gerenciamento de incidentes. Você vai aprender a identificar quando um determinado serviço não se comporta como o esperado, a severidade de sua interrupção e como observar seus principais indicadores. Com este material, você saberá os pontos de atenção para onde olhar na infraestrutura que abriga os sistemas, com foco em Escalabilidade, Disponibilidade e Resiliência, como são observados, aplicar tecnologias de monitoramento como Métricas, Logs, Traces, e frameworks de performance como SLOs (Objetivos de Nível de Serviço), automação de tarefas e Engenharia do Caos.

Saiba o que você vai aprender

Sumário

Parte 1: Fundamentos

1 O que é SRE?
1.1 Conhecendo SRE
1.2 Um pouco de história
1.3 Outros times de engenharia de software e SRE

2 Competências de SRE
2.1 SLOs, SLIs e Orçamento de Erro
2.2 Gerenciamento de incidentes
2.3 Observabilidade
2.4 Desenvolvimento de ferramentas e automação de atividades repetitivas
2.5 Engenharia do Caos
2.6 O que mais SREs fazem?

3 O ciclo de vida do desenvolvimento de software
3.1 Ambientes
3.2 Uma breve revisão sobre Integração Contínua e Entrega Contínua (CI/CD)
3.3 Testes e Quality Assurance
3.4 Estratégias de deployments para confiabilidade
3.5 Gerenciamento de releases
3.6 O serviço está em Produção, e agora?

Parte 2: Infraestrutura

4 Arquiteturas de software confiáveis
4.1 Escalabilidade
4.2 Disponibilidade
4.3 Resiliência

5 Plataformas de runtime
5.1 Soluções On-Premises
5.2 Soluções na Nuvem
5.3 Outras plataformas

Parte 3: Observabilidade

6 Métricas
6.1 Os 4 sinais de ouro de SRE
6.2 Bancos de dados de série temporal
6.3 Cuidados com métricas
6.4 OpenTelemetry
6.5 Criando uma aplicação de exemplo

7 Logs
7.1 Logs em ação

8 Traces
8.1 Traces em ação
8.2 Amostragem de Traces

Parte 4: Conceitos de confiabilidade

9 Objetivos de Nível de Serviço (SLOs)
9.1 SLO
9.2 SLIs
9.3 Orçamento de Erro

10 Boas práticas para alertas
10.1 Alertando de acordo com SLOs e SLIs
10.2 Alertas e níveis de prioridade
10.3 Documentando passos acionáveis para alertas
10.4 Lidando com alertas durante o plantão (on-call)

Parte 5: Gerenciamento de incidentes

11 Ferramentas de SRE
11.1 Metaengenharia
11.2 Sobre construir as próprias ferramentas ou adotar soluções existentes no mercado
11.3 Sugestões de ferramentas

12 O ciclo de vida de um incidente
12.1 Problema reportado
12.2 Triagem
12.3 Diagnóstico
12.4 Tratamento
12.5 Revisão
12.6 Conclusão

13 Outras práticas para melhorias de confiabilidade
13.1 Orientações básicas
13.2 Monitoramento Sintético
13.3 Simulações de incidentes
13.4 Interruptores de funcionalidades
13.5 Redirecionamento de tráfego
13.6 Considerações finais

14 Bibliografia
14.1 Recomendações

Autor

Marcelo Costa

Marcelo Costa é Engenheiro de Confiabilidade de Sites (SRE) com experiência em várias áreas da Engenharia de Software como Suporte, Desenvolvimento, Engenharia de Sistemas, QA e DevOps. Trabalhou na Europa (Dublin, Irlanda) em grandes empresas, como IBM e Twitter, e agora atua como SRE em Chicago, nos Estados Unidos.