Devido ao COVID-19, para proteger a todos os envolvidos na gráfica, correio, na Casa do Código e você, estamos temporariamente vendendo apenas e-books.

Use o código e tenha 10% de desconto!

Pandas Python Data Wrangling para Ciência de Dados

Eduardo Corrêa

Conteúdo

Ciência de dados é um processo que emprega técnicas estatísticas e computacionais para analisar grandes bases de dados. A etapa de pré-processamento, onde as bases de dados relevantes devem ser reunidas e adequadamente formatadas, costuma ser a mais trabalhosa, ocupando tipicamente 80% do tempo consumido. É nesta fase que são realizadas as tarefas de seleção, limpeza e transformação dos dados, comumente referenciadas como atividades de Data Wrangling, Data Munging ou Data Preparation. A biblioteca pandas foi especialmente projetada para oferecer o suporte ao processo de Data Wrangling e ela já se consolidou como a biblioteca para ciência de dados mais utilizada no ambiente Python.

Neste livro, Eduardo Corrêa aborda a pandas sob uma perspectiva profissional, explicando como utilizá-la para resolver problemas práticos e, muitas vezes, difíceis de Data Wrangling. Você aprenderá a teoria com um projeto prático, que envolve o uso da pandas como ferramenta para viabilizar a execução das atividades de seleção, estudo, limpeza e transformação de uma base de dados real. O projeto mostrará o passo a passo para realizar o pré-processamento desta base de dados, que será então utilizada como fonte para a criação de um modelo de Machine Learning, mais especificamente, um modelo de classificação de dados.

 

Sumário

  • 1 Muito prazer, biblioteca pandas
  • 1.1 O que é ciência de dados?
  • 1.2 Quais os problemas resolvidos pela ciência de dados?
  • 1.3 Como funciona a ciência de dados na prática?
  • 1.4 E onde entra a pandas nessa história?
  • 1.5 Projeto prático — apresentação
  • 2 A estrutura de dados Series
  • 2.1 Como criar Series?
  • 2.2 Técnicas para consulta e modificação de dados
  • 2.3 Computação vetorizada
  • 2.4 Índices datetime
  • 2.5 Indexação hierárquica
  • 2.6 Projeto prático — mais detalhes
  • 3 A estrutura de dados DataFrame
  • 3.1 Como criar DataFrames?
  • 3.2 Técnicas para consulta e modificação de dados
  • 3.3 Trabalhando com arquivos
  • 3.4 Projeto prático — importação e filtragem do dataset flags
  • 4 Conhecendo os seus dados
  • 4.1 Tipos de atributos
  • 4.2 Estatísticas básicas
  • 4.3 Ranqueamento e ordenação
  • 4.4 Produzindo tabulações
  • 4.5 Gráficos
  • 4.6 Detecção de outliers
  • 4.7 Projeto prático — estudando o dataset flags
  • 5 Combinando DataFrames
  • 5.1 Concatenação
  • 5.2 Operações de conjunto
  • 5.3 Junção
  • 5.4 Projeto prático — combinando os datasets flags e countries
  • 6 Transformação e limpeza de DataFrames
  • 6.1 Seleção e projeção
  • 6.2 Modificação de dados
  • 6.3 Funções aplicadas sobre colunas
  • 6.4 Discretização
  • 6.5 Normalização
  • 6.6 Projeto prático — transformando o dataset flags
  • 7 Um pouco de Machine Learning
  • 7.1 O que é classificação?
  • 7.2 Como criar um classificador?
  • 7.3 Como avaliar um classificador?
  • 7.4 Biblioteca scikit-learn
  • 7.5 Projeto prático — classificador multirrótulo

veja mais detalhes

Autor

Eduardo Corrêa

Eduardo Corrêa cursou Doutorado em Ciência da Computação pela UFF (2015) com período sanduíche na University of Kent, no Reino Unido. Também cursou Mestrado (2004) e Graduação (1999) em Ciência da Computação pela UFF. Possui certificação Oracle Database SQL Certified Expert (OCE). Atualmente, trabalha como administrador de banco de dados no Instituto Brasileiro de Geografia e Estatística (IBGE) e também atua como professor colaborador na Escola Nacional de Ciências Estatísticas (ENCE-IBGE). Suas áreas de interesse são: Banco de Dados, Algoritmos, Processamento de Linguagem Natural e Python.

Dados do produto

Número de páginas:
223
ISBN:
978-85-7254-048-3

Compartilhe!

Compartilhe no Facebook Compartilhe no Twitter