Pandas Python Data Wrangling para Ciência de Dados
Eduardo CorrêaConteúdo
Ciência de dados é um processo que emprega técnicas estatísticas e computacionais para analisar grandes bases de dados. A etapa de pré-processamento, onde as bases de dados relevantes devem ser reunidas e adequadamente formatadas, costuma ser a mais trabalhosa, ocupando tipicamente 80% do tempo consumido. É nesta fase que são realizadas as tarefas de seleção, limpeza e transformação dos dados, comumente referenciadas como atividades de Data Wrangling, Data Munging ou Data Preparation. A biblioteca pandas foi especialmente projetada para oferecer o suporte ao processo de Data Wrangling e ela já se consolidou como a biblioteca para ciência de dados mais utilizada no ambiente Python.
Neste livro, Eduardo Corrêa aborda a pandas sob uma perspectiva profissional, explicando como utilizá-la para resolver problemas práticos e, muitas vezes, difíceis de Data Wrangling. Você aprenderá a teoria com um projeto prático, que envolve o uso da pandas como ferramenta para viabilizar a execução das atividades de seleção, estudo, limpeza e transformação de uma base de dados real. O projeto mostrará o passo a passo para realizar o pré-processamento desta base de dados, que será então utilizada como fonte para a criação de um modelo de Machine Learning, mais especificamente, um modelo de classificação de dados.
Sumário
- 1 Muito prazer, biblioteca pandas
- 1.1 O que é ciência de dados?
- 1.2 Quais os problemas resolvidos pela ciência de dados?
- 1.3 Como funciona a ciência de dados na prática?
- 1.4 E onde entra a pandas nessa história?
- 1.5 Projeto prático — apresentação
- 2 A estrutura de dados Series
- 2.1 Como criar Series?
- 2.2 Técnicas para consulta e modificação de dados
- 2.3 Computação vetorizada
- 2.4 Índices datetime
- 2.5 Indexação hierárquica
- 2.6 Projeto prático — mais detalhes
- 3 A estrutura de dados DataFrame
- 3.1 Como criar DataFrames?
- 3.2 Técnicas para consulta e modificação de dados
- 3.3 Trabalhando com arquivos
- 3.4 Projeto prático — importação e filtragem do dataset flags
- 4 Conhecendo os seus dados
- 4.1 Tipos de atributos
- 4.2 Estatísticas básicas
- 4.3 Ranqueamento e ordenação
- 4.4 Produzindo tabulações
- 4.5 Gráficos
- 4.6 Detecção de outliers
- 4.7 Projeto prático — estudando o dataset flags
- 5 Combinando DataFrames
- 5.1 Concatenação
- 5.2 Operações de conjunto
- 5.3 Junção
- 5.4 Projeto prático — combinando os datasets flags e countries
- 6 Transformação e limpeza de DataFrames
- 6.1 Seleção e projeção
- 6.2 Modificação de dados
- 6.3 Funções aplicadas sobre colunas
- 6.4 Discretização
- 6.5 Normalização
- 6.6 Projeto prático — transformando o dataset flags
- 7 Um pouco de Machine Learning
- 7.1 O que é classificação?
- 7.2 Como criar um classificador?
- 7.3 Como avaliar um classificador?
- 7.4 Biblioteca scikit-learn
- 7.5 Projeto prático — classificador multirrótulo
Autor
Eduardo Corrêa
Eduardo Corrêa cursou Doutorado em Ciência da Computação pela UFF (2015) com período sanduíche na University of Kent, no Reino Unido. Também cursou Mestrado (2004) e Graduação (1999) em Ciência da Computação pela UFF. Possui certificação Oracle Database SQL Certified Expert (OCE). Atualmente, trabalha como administrador de banco de dados no Instituto Brasileiro de Geografia e Estatística (IBGE) e também atua como professor colaborador na Escola Nacional de Ciências Estatísticas (ENCE-IBGE). Suas áreas de interesse são: Banco de Dados, Algoritmos, Processamento de Linguagem Natural e Python.
Dados do produto
- Número de páginas:
- 223
- ISBN:
- 978-85-7254-048-3
- Data publicação:
- 01/2020