Use o código e tenha 10% de desconto!

Pandas Python Data Wrangling para Ciência de Dados

Eduardo Corrêa

*Você terá acesso às futuras atualizações do livro.

Conteúdo

Ciência de dados é um processo que emprega técnicas estatísticas e computacionais para analisar grandes bases de dados. A etapa de pré-processamento, onde as bases de dados relevantes devem ser reunidas e adequadamente formatadas, costuma ser a mais trabalhosa, ocupando tipicamente 80% do tempo consumido. É nesta fase que são realizadas as tarefas de seleção, limpeza e transformação dos dados, comumente referenciadas como atividades de Data Wrangling, Data Munging ou Data Preparation. A biblioteca pandas foi especialmente projetada para oferecer o suporte ao processo de Data Wrangling e ela já se consolidou como a biblioteca para ciência de dados mais utilizada no ambiente Python.

Neste livro, Eduardo Corrêa aborda a pandas sob uma perspectiva profissional, explicando como utilizá-la para resolver problemas práticos e, muitas vezes, difíceis de Data Wrangling. Você aprenderá a teoria com um projeto prático, que envolve o uso da pandas como ferramenta para viabilizar a execução das atividades de seleção, estudo, limpeza e transformação de uma base de dados real. O projeto mostrará o passo a passo para realizar o pré-processamento desta base de dados, que será então utilizada como fonte para a criação de um modelo de Machine Learning, mais especificamente, um modelo de classificação de dados.

Saiba o que você vai aprender

 

Sumário

  • 1 Muito prazer, biblioteca pandas
  • 1.1 O que é ciência de dados?
  • 1.2 Quais os problemas resolvidos pela ciência de dados?
  • 1.3 Como funciona a ciência de dados na prática?
  • 1.4 E onde entra a pandas nessa história?
  • 1.5 Projeto prático — apresentação
  • 2 A estrutura de dados Series
  • 2.1 Como criar Series?
  • 2.2 Técnicas para consulta e modificação de dados
  • 2.3 Computação vetorizada
  • 2.4 Índices datetime
  • 2.5 Indexação hierárquica
  • 2.6 Projeto prático — mais detalhes
  • 3 A estrutura de dados DataFrame
  • 3.1 Como criar DataFrames?
  • 3.2 Técnicas para consulta e modificação de dados
  • 3.3 Trabalhando com arquivos
  • 3.4 Projeto prático — importação e filtragem do dataset flags
  • 4 Conhecendo os seus dados
  • 4.1 Tipos de atributos
  • 4.2 Estatísticas básicas
  • 4.3 Ranqueamento e ordenação
  • 4.4 Produzindo tabulações
  • 4.5 Gráficos
  • 4.6 Detecção de outliers
  • 4.7 Projeto prático — estudando o dataset flags
  • 5 Combinando DataFrames
  • 5.1 Concatenação
  • 5.2 Operações de conjunto
  • 5.3 Junção
  • 5.4 Projeto prático — combinando os datasets flags e countries
  • 6 Transformação e limpeza de DataFrames
  • 6.1 Seleção e projeção
  • 6.2 Modificação de dados
  • 6.3 Funções aplicadas sobre colunas
  • 6.4 Discretização
  • 6.5 Normalização
  • 6.6 Projeto prático — transformando o dataset flags
  • 7 Um pouco de Machine Learning
  • 7.1 O que é classificação?
  • 7.2 Como criar um classificador?
  • 7.3 Como avaliar um classificador?
  • 7.4 Biblioteca scikit-learn
  • 7.5 Projeto prático — classificador multirrótulo

Autor

Eduardo Corrêa

Eduardo Corrêa cursou Doutorado em Ciência da Computação pela UFF (2015) com período sanduíche na University of Kent, no Reino Unido. Também cursou Mestrado (2004) e Graduação (1999) em Ciência da Computação pela UFF. Possui certificação Oracle Database SQL Certified Expert (OCE). Atualmente, trabalha como administrador de banco de dados no Instituto Brasileiro de Geografia e Estatística (IBGE) e também atua como professor colaborador na Escola Nacional de Ciências Estatísticas (ENCE-IBGE). Suas áreas de interesse são: Banco de Dados, Algoritmos, Processamento de Linguagem Natural e Python.

Dados do produto

Número de páginas:
223
ISBN:
978-85-7254-048-3

Compartilhe!

Compartilhe no Facebook Compartilhe no Twitter