Visualização de dados em Python: gráficos fundamentais explicados [com ilustração gráfica]
Publicados: 2021-02-08Índice
Princípios Básicos de Design
Para qualquer cientista de dados aspirante ou bem-sucedido, ser capaz de explicar sua pesquisa e análise é uma habilidade muito importante e útil de se possuir. É aqui que a visualização de dados entra em cena. É vital usar essa ferramenta honestamente, pois o público pode ser facilmente desinformado ou enganado por más escolhas de design.
Como cientistas de dados, todos temos certas obrigações em relação à preservação do que é verdadeiro.
A primeira é que devemos ser completamente honestos conosco mesmos ao limpar e resumir os dados. O pré-processamento de dados é uma etapa muito crucial para que qualquer algoritmo de aprendizado de máquina funcione e, portanto, qualquer desonestidade nos dados levará a resultados drasticamente diferentes.
Outra obrigação é para com o nosso público-alvo. Existem várias técnicas na visualização de dados que são usadas para destacar seções específicas de dados e tornar alguns outros dados menos proeminentes. Portanto, se não formos cuidadosos o suficiente, o leitor não poderá explorar e julgar a análise adequadamente, o que pode gerar dúvidas e falta de confiança.
Sempre se questionar é uma boa característica para os cientistas de dados. E devemos sempre pensar em como mostrar o que realmente importa de uma maneira compreensível e esteticamente agradável, ao mesmo tempo em que lembramos que o contexto é importante.
É exatamente isso que Alberto Cairo tenta retratar em seus ensinamentos. Ele menciona as cinco qualidades das grandes visualizações: belas, esclarecedoras, funcionais, perspicazes e verdadeiras, que vale a pena manter em mente.
Algumas parcelas fundamentais
Agora que temos uma compreensão básica dos princípios de design, vamos mergulhar em algumas técnicas fundamentais de visualização usando a biblioteca matplotlib em python.
Todo o código abaixo pode ser executado em um notebook Jupyter.
bloco de notas %matplotlib
# isso fornece um ambiente interativo e define o back-end. ( %matplotlib inline também pode ser usado, mas não é interativo. Isso significa que quaisquer outras chamadas para funções de plotagem não atualizarão automaticamente nossa visualização original.)
import matplotlib.pyplot as plt # importando o módulo de biblioteca necessário
Gráficos de pontos
A função matplotlib mais simples para traçar um ponto é plot() . Os argumentos representam as coordenadas X e Y e, em seguida, um valor de string que descreve como a saída de dados deve ser mostrada.
plt.figura()
plt.plot( 5, 6, '+' ) # o sinal + funciona como um marcador
Gráficos de dispersão
Um gráfico de dispersão é um gráfico bidimensional. A função scatter() também recebe o valor X como primeiro argumento e o valor Y como segundo. O gráfico abaixo é uma linha diagonal e o matplotlib ajusta automaticamente o tamanho de ambos os eixos. Aqui, o gráfico de dispersão não trata os itens como uma série. Assim, também podemos fornecer uma lista de cores desejadas correspondentes a cada um dos pontos.
importar numpy como np
x = np.array([1, 2, 3, 4, 5, 6, 7, 8] )
y = x
plt.figura()
plt.scatter( x, y )
Gráficos de linha
Um gráfico de linha é criado com a função plot() e traça um número de diferentes séries de pontos de dados como um gráfico de dispersão, mas conecta cada série de pontos com uma linha.
importar numpy como np
linear_data = np.array( [1, 2, 3, 4, 5, 6, 7, 8] )
dados_quadrado = dados_lineares**2
plt.figura()
plt.plot( linear_data, '-o', squared_data, '-o')
Para tornar o gráfico mais legível, também podemos adicionar uma legenda que nos dirá o que cada linha representa. Um título adequado para o gráfico e ambos os eixos é importante. Além disso, qualquer seção do gráfico pode ser sombreada usando a função fill_between() para destacar regiões relevantes.
plt.xlabel('X valores')
plt.ylabel('valores Y')
plt.title('Gráficos de Linhas')

plt.legend(['linear', 'quadrado'] )
plt.gca().fill_between( intervalo ( len ( linear_data ) ), linear_data, squared_data, facecolor = 'blue', alpha = 0,25)
É assim que o gráfico modificado se parece-
Gráficos de barra
Podemos traçar um gráfico de barras enviando argumentos para os valores X e a altura de cada barra para a função bar() . Abaixo está um gráfico de barras da mesma matriz de dados linear que usamos acima.
plt.figura()
x = intervalo( len ( linear_data ))
plt.bar( x, linear_data )
# para plotar os dados quadrados como outro conjunto de barras no mesmo gráfico, temos que ajustar os novos valores x para compensar o primeiro conjunto de barras
novo_x = []
para dados em x:
new_x.append(dados+0,3)
plt.bar(new_x, squared_data, largura = 0,3, cor = 'verde')
# Para gráficos com orientação horizontal usamos a função barh()
plt.figura()
x = intervalo( len(dados_lineares))
plt.barh( x, dados_lineares, altura = 0,3, cor = 'b')
plt.barh( x, dados_quadrados, altura = 0,3, esquerda = dados_lineares, cor = 'g')
#aqui está um exemplo de empilhamento de gráficos de barras verticalmente
plt.figura()
x = intervalo( len(dados_lineares))
plt.bar( x, linear_data, largura = 0,3, cor = 'b')
plt.bar( x, dados_quadrados, largura = 0,3, fundo = dados_lineares, cor = 'g')
Aprenda cursos de ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.
Conclusão
Os tipos de visualização não terminam aqui. Python também tem uma ótima biblioteca chamada seaborn que definitivamente vale a pena explorar. A visualização adequada das informações ajuda muito a aumentar o valor de nossos dados. A visualização de dados sempre será a melhor opção para obter insights e identificar várias tendências e padrões, em vez de consultar tabelas chatas com milhões de registros.
Se você está curioso para aprender sobre ciência de dados, confira o PG Diploma in Data Science do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1- on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.
Quais são alguns pacotes Python úteis para visualização de dados?
Python tem alguns pacotes incríveis e úteis para visualização de dados. Alguns desses pacotes são mencionados abaixo:
1. Matplotlib - Matplotlib é uma biblioteca Python popular usada para visualização de dados em várias formas, como gráficos de dispersão, gráficos de barras, gráficos de pizza e gráficos de linhas. Ele usa Numpy para suas operações matemáticas.
2. Seaborn - A biblioteca Seaborn é usada para representações estatísticas em Python. Ele é desenvolvido no topo do Matplotlib e é integrado às estruturas de dados do Pandas.
3. Altair - Altair é outra biblioteca Python popular para visualização de dados. É uma biblioteca estatística declarativa que permite criar visuais com o mínimo de codificação possível.
4. Plotly - Plotly é uma biblioteca de visualização de dados interativa e de código aberto de Python. Os visuais criados por esta biblioteca baseada em navegador são suportados por muitas plataformas, como Jupyter Notebook e arquivos HTML independentes.
O que você sabe sobre gráficos de pontos e gráficos de dispersão?
Os gráficos de pontos são os gráficos mais básicos e simples para visualização de dados. Um gráfico de pontos exibe os dados na forma de pontos em um plano cartesiano. O “+” mostra o aumento do valor enquanto “-” mostra a diminuição do valor ao longo do tempo.
Um gráfico de dispersão, por outro lado, é um gráfico otimizado onde os dados são visualizados em um plano 2-D. Ele é definido usando a função scatter() que usa o valor do eixo x como o primeiro parâmetro e o valor do eixo y como o segundo parâmetro.
Quais são as vantagens da visualização de dados?
As vantagens a seguir mostram como as visualizações de dados podem se tornar o verdadeiro herói para o crescimento de uma organização:
1. A visualização de dados torna mais fácil interpretar os dados brutos e compreendê-los para análise posterior.
2. Depois de pesquisar e analisar os dados, os resultados podem ser exibidos usando visualizações significativas. Isso torna mais fácil se conectar com o público e explicar os resultados.
3. Uma das aplicações mais essenciais desta técnica é analisar padrões e tendências para deduzir previsões e áreas potenciais de crescimento.
4. Também permite segregar os dados de acordo com as preferências do cliente. Você também pode identificar as áreas que precisam de mais atenção.