Pandas Python Data Wrangling para Ciência de Dados

Eduardo Corrêa

E-book* (.pdf, .epub)
R$ 39,90
Impresso
R$ 69,90
E-book + Impresso
R$ 84,90

*Você terá acesso às futuras atualizações do livro.

Conteúdo

Ciência de dados é um processo que emprega técnicas estatísticas e computacionais para analisar grandes bases de dados. A etapa de pré-processamento, onde as bases de dados relevantes devem ser reunidas e adequadamente formatadas, costuma ser a mais trabalhosa, ocupando tipicamente 80% do tempo consumido. É nesta fase que são realizadas as tarefas de seleção, limpeza e transformação dos dados, comumente referenciadas como atividades de Data Wrangling, Data Munging ou Data Preparation. A biblioteca pandas foi especialmente projetada para oferecer o suporte ao processo de Data Wrangling e ela já se consolidou como a biblioteca para ciência de dados mais utilizada no ambiente Python.

Neste livro, Eduardo Corrêa aborda a pandas sob uma perspectiva profissional, explicando como utilizá-la para resolver problemas práticos e, muitas vezes, difíceis de Data Wrangling. Você aprenderá a teoria com um projeto prático, que envolve o uso da pandas como ferramenta para viabilizar a execução das atividades de seleção, estudo, limpeza e transformação de uma base de dados real. O projeto mostrará o passo a passo para realizar o pré-processamento desta base de dados, que será então utilizada como fonte para a criação de um modelo de Machine Learning, mais especificamente, um modelo de classificação de dados.

Saiba o que você vai aprender

Sumário

1 Muito prazer, biblioteca pandas
1.1 O que é ciência de dados?
1.2 Quais os problemas resolvidos pela ciência de dados?
1.3 Como funciona a ciência de dados na prática?
1.4 E onde entra a pandas nessa história?
1.5 Projeto prático — apresentação

2 A estrutura de dados Series
2.1 Como criar Series?
2.2 Técnicas para consulta e modificação de dados
2.3 Computação vetorizada
2.4 Índices datetime
2.5 Indexação hierárquica
2.6 Projeto prático — mais detalhes

3 A estrutura de dados DataFrame
3.1 Como criar DataFrames?
3.2 Técnicas para consulta e modificação de dados
3.3 Trabalhando com arquivos
3.4 Projeto prático — importação e filtragem do dataset flags

4 Conhecendo os seus dados
4.1 Tipos de atributos
4.2 Estatísticas básicas
4.3 Ranqueamento e ordenação
4.4 Produzindo tabulações
4.5 Gráficos
4.6 Detecção de outliers
4.7 Projeto prático — estudando o dataset flags

5 Combinando DataFrames
5.1 Concatenação
5.2 Operações de conjunto
5.3 Junção
5.4 Projeto prático — combinando os datasets flags e countries

6 Transformação e limpeza de DataFrames
6.1 Seleção e projeção
6.2 Modificação de dados
6.3 Funções aplicadas sobre colunas
6.4 Discretização
6.5 Normalização
6.6 Projeto prático — transformando o dataset flags

7 Um pouco de Machine Learning
7.1 O que é classificação?
7.2 Como criar um classificador?
7.3 Como avaliar um classificador?
7.4 Biblioteca scikit-learn
7.5 Projeto prático — classificador multirrótulo

Autor

Eduardo Corrêa

Eduardo Corrêa cursou Doutorado em Ciência da Computação pela UFF (2015) com período sanduíche na University of Kent, no Reino Unido. Também cursou Mestrado (2004) e Graduação (1999) em Ciência da Computação pela UFF. Possui certificação Oracle Database SQL Certified Expert (OCE). Atualmente, trabalha como administrador de banco de dados no Instituto Brasileiro de Geografia e Estatística (IBGE) e também atua como professor colaborador na Escola Nacional de Ciências Estatísticas (ENCE-IBGE). Suas áreas de interesse são: Banco de Dados, Algoritmos, Processamento de Linguagem Natural e Python.