Engenharia de recursos Transforme dados brutos em recursos valiosos com Feature Engine
Thiago BenevidesConteúdo
Cada vez mais empresas têm investido em análise de dados para conseguir extrair insights por meio de algoritmos baseados em modelos matemáticos e estatísticos. Porém, antes de utilizar esses dados, você precisa saber como prepará-los e como lidar com eles. E isso tem um nome: Feature Engine ou, em português, Engenharia de Recursos. É através dessa etapa que conseguimos transformar e extrair informações relevantes dos dados brutos. Ao criarmos recursos mais significativos e relevantes, melhoramos o desempenho dos algoritmos de Machine Learning, aumentando sua precisão e acurácia.
Neste livro, Thiago Benevides aborda o funcionamento e aplicação prática da Engenharia de Recursos. Você verá como melhorar seus dados ao lidar com valores ausentes, discretização de valores numéricos, padronização de recursos e codificação de valores categóricos. O livro traz ainda como Feature Engine pode ajudar a tratar problemas de dimensionalidade, levando a um modelo mais eficiente e robusto, bem como a evitar falsas análises e equívocos ao extrairmos as informações realmente significativas dos dados. Tudo isso acompanhado de projetos práticos e códigos de exemplo para você aprender com a mão na massa.
Sumário
PARTE 1: Trabalhando com valores ausentes
- 1 Trabalhando com valores ausentes em um conjunto de dados
- 1.1 Substituição de valores ausentes por valores numéricos
- 1.2 Substituição de valores ausentes em conjuntos de dados categóricos
- 2 Projeto prático — Substituição de valores ausentes
- 2.1 Conhecendo a nossa base de dados
- 2.2 Substituição dos valores ausentes em conjuntos de dados numéricos
PARTE 2: Trabalhando com valores numéricos
- 3 Trabalhando com valores numéricos
- 3.1 Binning, a discretização de valores numéricos
- 3.2 Discretizando valores numéricos utilizando árvore e a biblioteca scikit-learn
- 4 Projeto prático — Discretização de valores numéricos
- 4.1 Discretizando valores numéricos utilizando a biblioteca scikit-learn
- 4.2 Discretizando valores numéricos utilizando a biblioteca feature-engine
- 4.3 Discretização de valores numéricos utilizando faixa de frequência igual com a biblioteca scikit-learn
- 4.4 Discretização por árvore utilizando a biblioteca scikit-learn
- 4.5 Discretização via árvore com a biblioteca feature-engine
PARTE 3: Padronização de recursos
- 5 Padronização de recursos
- 5.1 Padronização pela normalização
- 5.2 Dimensionamento pela média
- 5.3 Padronização por min-max
- 6 Projeto prático — Padronização de valores de ações da Bolsa
- 6.1 Padronização pela normalização utilizando a biblioteca scikit-learn
- 6.2 Criando um modelo de previsão ARIMA
- 6.3 Padronização com a mediana e quantis (escala robusta)
- 6.4 Padronização com a média
- 6.5 Calculando o erro
PARTE 4: Codificando valores categóricos
- 7 Codificação de valores categóricos
- 7.1 Codificação One-Hot
- 7.2 Codificação de variáveis categóricas por contagem ou frequência de observação
- 7.3 Codificação com números inteiros de maneira ordenada
- 8 Projeto prático — Codificação de variáveis categóricas
- 8.1 Codificação One-Hot utilizando a biblioteca scikit-learn
- 8.2 Fazendo a codificação One-Hot com a biblioteca feature-engine
- 8.3 Substituindo categorias por contagem ou frequência de observações
- 8.4 Codificação com inteiros de maneira ordenada utilizando a biblioteca feature-engine
PARTE 5: Redução de dimensionalidade, upsampling, downsampling e métricas para avaliação
- 9 Trabalhando com redução de dimensionalidade, upsampling e downsampling
- 9.1 Reduzindo o tamanho do nosso conjunto com PCA
- 9.2 Criando o nosso algoritmo PCA
- 9.3 Dados desbalanceados
- 9.4 Gerando dados de minorias com SMOTE
- 9.5 Reduzindo os dados da maioria
- 10 Projeto prático — Redução de dimensionalidade com upsampling e downsampling
- 10.1 Análise exploratória de dados
- 10.2 Utilizando técnicas de upsampling e downsampling
Apêndice
- 11 Apêndice: Qual é o melhor modelo?
- 11.1 Métricas para avaliar modelos de classificação
- 11.2 Métricas para avaliar modelos de regressão
- 11.3 Conclusão
Autor
Thiago Benevides
Thiago Benevides é licenciado em Matemática pela Universidade Tecnológica Federal do Paraná e atualmente cursa pós-graduação em Estatística Aplicada e um MBA em Gestão Financeira e Análise de Risco, ambos pela Faculdade Anhanguera. Ele possui diversos cursos de programação e análise de dados na Udemy, além de um curso de visão computacional disponível na Hotmart. Atualmente, atua como professor de matemática no ensino médio e também ministra cursos voltados à educação financeira e à otimização de portfólios, com enfoque em estatística, programação e machine learning.
Dados do produto
- Número de páginas:
- 305
- ISBN:
- 978-85-5519-393-4
- Data publicação:
- 01/2025