Come creare una Heatmap Python con Seaborn? [Spiegazione completa]

Pubblicato: 2021-10-06

Le aziende nell'era dei Big Data sono quotidianamente sopraffatte da grandi volumi di dati. Tuttavia, non è la semplice quantità di dati rilevanti, ma ciò che viene fatto con i dati che conta. Pertanto, i Big Data devono essere analizzati per ottenere informazioni che alla fine determineranno decisioni migliori e influenzeranno le mosse strategiche del business.

Tuttavia, non è sufficiente analizzare i dati e lasciarli lì. Il passaggio successivo è la visualizzazione dei dati che presenta i dati in un formato visivo per vedere e comprendere modelli, tendenze e valori anomali nei dati. Heatmap in Python è una delle tante tecniche di visualizzazione dei dati.

La visualizzazione dei dati si riferisce alla rappresentazione grafica dei dati e può includere grafici, grafici, mappe e altri elementi visivi. È estremamente critico per analizzare enormi quantità di informazioni e prendere decisioni basate sui dati.

Questo articolo ti guiderà attraverso il concetto di heatmap in Python e come crearne una usando Seaborn.

Sommario

Che cos'è una mappa di calore?

Una heatmap in Python è una tecnica di visualizzazione dei dati in cui i colori rappresentano come un valore di interesse cambia con i valori di altre due variabili. È una rappresentazione grafica bidimensionale dei dati con valori codificati in colori, fornendo così una visione delle informazioni semplificata, perspicace e visivamente accattivante. L'immagine seguente è una rappresentazione semplificata di una mappa di calore.

Tipicamente, una mappa termica è una tabella di dati con righe e colonne che rappresentano diversi insiemi di categorie. Ciascuna cella della tabella contiene un valore logico o numerico che determina il colore della cella in base a una determinata tavolozza di colori. Pertanto, le mappe termiche utilizzano i colori per enfatizzare la relazione tra i valori dei dati che altrimenti sarebbe difficile da comprendere se disposti in una tabella normale utilizzando numeri grezzi.

Le mappe di calore trovano applicazioni in diversi scenari del mondo reale. Ad esempio, considera la mappa di calore di seguito. È una mappa di calore di un indice azionario che identifica le tendenze prevalenti nel mercato azionario. La mappa di calore utilizza una combinazione di colori da fredda a calda per mostrare quali titoli sono ribassisti e quali rialzisti. Il primo è rappresentato utilizzando il colore rosso, mentre il secondo è rappresentato in verde.

Fonte

Le mappe di calore trovano impiego in molte altre aree. Alcuni esempi includono mappe di calore di siti Web, mappe di calore geografiche e mappe di calore sportive. Ad esempio, potresti utilizzare una mappa di calore per capire come le precipitazioni variano in base al mese dell'anno in un insieme di città. Le mappe di calore sono anche estremamente utili per studiare il comportamento umano.

Heatmap di correlazione

Una mappa termica di correlazione è una matrice bidimensionale che mostra la correlazione tra due variabili distinte. Le righe della tabella mostrano i valori della prima variabile, mentre la seconda variabile appare come colonne. Come una normale mappa termica, anche una mappa termica di correlazione viene fornita con una barra dei colori per leggere e comprendere i dati.

La combinazione di colori utilizzata è tale che un'estremità della combinazione di colori rappresenta i punti dati di valore basso e l'altra estremità i punti dati di valore elevato. Pertanto, le mappe termiche di correlazione sono ideali per l'analisi dei dati poiché presentano modelli in una forma facilmente leggibile evidenziando anche la variazione dei dati.

Di seguito è riportata una rappresentazione classica di una mappa termica di correlazione.

Fonte

Creazione di una Heatmap Seaborn in Python

Seaborn è una libreria Python utilizzata per la visualizzazione dei dati e si basa su matplotlib. Fornisce un mezzo informativo e visivamente attraente per presentare i dati in un formato grafico statistico. In una mappa di calore creata utilizzando seaborn, una tavolozza di colori ritrae la variazione nei dati correlati. Se sei un principiante e desideri acquisire esperienza nella scienza dei dati, dai un'occhiata ai nostri corsi di scienza dei dati.

Passaggi per creare una mappa di calore in Python

I seguenti passaggi forniscono uno schema approssimativo di come creare una semplice mappa di calore in Python:

  • Importa tutti i pacchetti richiesti
  • Importa il file in cui hai archiviato i tuoi dati
  • Traccia la mappa di calore
  • Visualizza la mappa termica usando matplotlib

Ora, lascia che ti mostriamo come seaborn, insieme a matplotlib e pandas, può essere utilizzato per generare una mappa di calore.

In questo esempio, costruiremo una mappa di calore nata dal mare in Python per 30 azioni di società farmaceutiche. La mappa di calore risultante mostrerà i simboli delle azioni e la rispettiva variazione percentuale del prezzo di un giorno. Inizieremo raccogliendo i dati di mercato sulle azioni farmaceutiche e creeremo un file CSV (Comma-separated Value) composto dai simboli delle azioni e dalla corrispondente variazione percentuale del prezzo nelle prime due colonne di detto file CSV.

Dal momento che stiamo lavorando con 30 aziende farmaceutiche, costruiremo una matrice di heatmap composta da 6 righe e 5 colonne. Inoltre, vogliamo che la mappa di calore rappresenti la variazione percentuale del prezzo in ordine decrescente. Quindi, disporremo gli stock nel file CSV in ordine decrescente e aggiungeremo altre due colonne per indicare la posizione di ogni stock sugli assi X e Y della mappa termica Seaborn.

Passaggio 1: importazione dei pacchetti Python.

Fonte

Passaggio 2: caricamento del set di dati.

Il set di dati viene letto utilizzando la funzione read_csv da panda. Inoltre, utilizziamo l'istruzione print per visualizzare le prime 10 righe.

Fonte

Passaggio 3: creazione di un array Python Numpy.

Tenendo presente la matrice 6 x 5, creeremo un array n-dimensionale per le colonne "Simbolo" e "Cambia".

Fonte

Passaggio 4: creazione di un pivot in Python.

Dal dato oggetto frame di dati "df", la funzione pivot crea una nuova tabella derivata. La funzione pivot accetta tre argomenti: indice, colonne e valori. I valori delle celle della nuova tabella sono presi dalla colonna “Cambia”.

Fonte

Passaggio 5: creazione di un array per annotare la mappa di calore.

Il passaggio successivo consiste nel creare un array per annotare la mappa termica del mare. Per questo, chiameremo il metodo flatten sugli array "percentuale" e "simbolo" per appiattire un elenco di elenchi Python in una riga. Inoltre, la funzione zip comprime un elenco in Python. Eseguiremo un ciclo for Python e utilizzeremo la funzione format per formattare i simboli delle azioni e i valori di variazione percentuale del prezzo secondo necessità.

Fonte

Passaggio 6: creazione della figura matplotlib e definizione della trama.

In questo passaggio creeremo un grafico matplotlib vuoto e definiremo le dimensioni della figura. Inoltre, aggiungeremo il titolo della trama, imposteremo la dimensione del carattere del titolo e ne fisseremo la distanza dalla trama utilizzando il metodo set_position. Infine, poiché vogliamo visualizzare solo i simboli delle azioni e la loro corrispondente variazione percentuale del prezzo di un giorno, nasconderemo i tick per gli assi X e Y e rimuoveremo gli assi dal grafico.

Fonte

Passaggio 7: creazione della mappa di calore

Nell'ultimo passaggio, useremo la funzione heatmap dal pacchetto Python di Seaborn per creare la heatmap. La funzione heatmap del pacchetto Seaborn Python accetta il seguente insieme di argomenti:

  • Dati :

È un set di dati bidimensionale che può essere forzato in un array. Dato un DataFrame Pandas, le righe e le colonne verranno etichettate utilizzando le informazioni sull'indice/colonna.

  • Annotare :

È un array della stessa forma dei dati e annota la mappa termica.

  • cmapp:

È un oggetto matplotlib o un nome colormap e mappa i valori dei dati nello spazio colore.

  • Dato :

È un codice di formattazione della stringa utilizzato durante l'aggiunta di annotazioni.

  • Larghezza di riga:

Imposta la larghezza delle linee che dividono ogni cella.

Fonte

L'output finale della mappa di calore di Seaborn per le aziende farmaceutiche scelte sarà simile a questo:

Fonte

Via da seguire: impara Python con il programma di certificazione professionale di upGrad in Data Science

Il programma di certificazione professionale in Data Science per il processo decisionale aziendale è un rigoroso programma online di 8 mesi incentrato sulla scienza dei dati e sui concetti di apprendimento automatico con particolare enfasi sulle loro applicazioni aziendali nel mondo reale. Il programma è progettato categoricamente per manager e professionisti che desiderano sviluppare le conoscenze pratiche e le abilità della scienza dei dati che li aiuteranno a prendere decisioni aziendali strategiche e basate sui dati.

Ecco alcuni punti salienti del corso:

  • Prestigioso riconoscimento da IIM Kozhikode
  • Oltre 200 ore di contenuti
  • 3 progetti industriali e una pietra miliare
  • Oltre 20 sessioni di apprendimento dal vivo
  • 5+ sessioni di coaching di esperti
  • Copertura di Excel, Tableau, Python, R e Power BI
  • Uno contro uno con i mentori del settore
  • Supporto professionale a 360 gradi
  • Assistenza al lavoro con primarie aziende

Iscriviti a upGrad e affina le tue capacità di mappe di calore Python per tutte le tue esigenze di visualizzazione dei dati!

Conclusione

Statistici e analisti di dati utilizzano una pletora di strumenti e tecniche per ordinare i dati raccolti e presentarli in un modo facilmente comprensibile e facile da usare. A questo proposito, le mappe di calore come tecnica di visualizzazione dei dati hanno aiutato le aziende di tutti i settori a visualizzare e comprendere meglio i dati.

Per riassumere, le mappe di calore sono state ampiamente utilizzate e sono ancora utilizzate come uno degli strumenti statistici e analitici preferiti. Questo perché offrono una modalità di presentazione dei dati visivamente accattivante e accessibile, sono facilmente comprensibili, versatili, adattabili ed eliminano i noiosi passaggi dei tradizionali processi di analisi e interpretazione dei dati presentando tutti i valori in un unico frame.

Come si traccia una mappa di calore?

Una mappa di calore è un modo standard per tracciare dati raggruppati in un formato grafico bidimensionale. L'idea di base alla base del tracciamento di una mappa di calore è che il grafico è diviso in quadrati o rettangoli, ciascuno dei quali rappresenta una cella sulla tabella dei dati, un set di dati e una riga. Il quadrato o il rettangolo è codificato a colori in base al valore di quella cella nella tabella.

Una mappa di calore mostra una correlazione?

Una mappa termica di correlazione è una rappresentazione grafica di una matrice di correlazione che rappresenta la correlazione tra diverse variabili. Le mappe termiche di correlazione sono molto efficaci se utilizzate correttamente poiché le variabili altamente correlate possono essere facilmente identificate.

Perché seaborn è usato in Python?

Seaborn è una libreria Python open source basata su matplotlib. Viene utilizzato per l'analisi e la visualizzazione dei dati esplorativi e funziona facilmente con i frame di dati e la libreria Pandas. Inoltre, i grafici creati utilizzando seaborn sono facilmente personalizzabili.