Wie erstelle ich eine Python-Heatmap mit Seaborn? [Umfassende Erklärung]

Veröffentlicht: 2021-10-06

Unternehmen im Zeitalter von Big Data werden täglich von großen Datenmengen überwältigt. Entscheidend ist jedoch nicht die schiere Menge an relevanten Daten, sondern was mit den Daten gemacht wird. Daher müssen Big Data analysiert werden, um Erkenntnisse zu gewinnen, die letztendlich bessere Entscheidungen diktieren und strategische Geschäftsschritte beeinflussen.

Dennoch reicht es nicht aus, Daten zu analysieren und sie dort zu belassen. Der nächste Schritt ist die Datenvisualisierung, die die Daten in einem visuellen Format darstellt, um Muster, Trends und Ausreißer in Daten zu sehen und zu verstehen. Heatmap in Python ist eine der vielen Datenvisualisierungstechniken.

Datenvisualisierung bezieht sich auf die grafische Darstellung von Daten und kann Grafiken, Diagramme, Karten und andere visuelle Elemente umfassen. Es ist äußerst wichtig, um riesige Mengen an Informationen zu analysieren und datengesteuerte Entscheidungen zu treffen.

Dieser Artikel führt Sie durch das Konzept einer Heatmap in Python und wie Sie eine mit Seaborn erstellen.

Inhaltsverzeichnis

Was ist eine Heatmap?

Eine Heatmap in Python ist eine Datenvisualisierungstechnik, bei der Farben darstellen, wie sich ein interessierender Wert mit den Werten von zwei anderen Variablen ändert. Es handelt sich um eine zweidimensionale grafische Darstellung von Daten mit farbkodierten Werten, die eine vereinfachte, aufschlussreiche und visuell ansprechende Ansicht der Informationen bietet. Das folgende Bild ist eine vereinfachte Darstellung einer Heatmap.

Typischerweise ist eine Heatmap eine Datentabelle mit Zeilen und Spalten, die verschiedene Gruppen von Kategorien darstellen. Jede Zelle in der Tabelle enthält einen logischen oder numerischen Wert, der die Farbe der Zelle basierend auf einer bestimmten Farbpalette bestimmt. Daher verwenden Heatmaps Farben, um die Beziehung zwischen Datenwerten hervorzuheben, die ansonsten schwierig zu verstehen wären, wenn sie in einer regulären Tabelle mit Rohzahlen angeordnet würden.

Heatmaps finden Anwendung in mehreren realen Szenarien. Betrachten Sie zum Beispiel die Heatmap unten. Es ist eine Aktienindex-Heatmap, die vorherrschende Trends auf dem Aktienmarkt identifiziert. Die Heatmap verwendet ein Kalt-zu-Heiß-Farbschema, um zu zeigen, welche Aktien rückläufig und welche zinsbullisch sind. Ersteres wird durch die Farbe Rot dargestellt, während Letzteres in Grün dargestellt wird.

Quelle

Heatmaps finden in mehreren anderen Bereichen Verwendung. Einige Beispiele sind Website-Heatmaps, geografische Heatmaps und Sport-Heatmaps. Sie könnten beispielsweise eine Heatmap verwenden, um zu verstehen, wie sich die Niederschläge je nach Monat des Jahres in einer Reihe von Städten ändern. Heatmaps sind auch äußerst praktisch, um menschliches Verhalten zu untersuchen.

Korrelations-Heatmap

Eine Korrelations-Heatmap ist eine zweidimensionale Matrix, die die Korrelation zwischen zwei unterschiedlichen Variablen zeigt. Die Zeilen der Tabelle zeigen die Werte der ersten Variablen, während die zweite Variable als Spalten erscheint. Wie eine normale Heatmap verfügt auch eine Korrelations-Heatmap über einen Farbbalken zum Lesen und Verstehen der Daten.

Das verwendete Farbschema ist derart, dass ein Ende des Farbschemas die Datenpunkte mit niedrigem Wert und das andere Ende die Datenpunkte mit hohem Wert darstellt. Daher sind Korrelations-Heatmaps ideal für die Datenanalyse, da sie Muster in einer leicht lesbaren Form darstellen und gleichzeitig die Variation in den Daten hervorheben.

Unten ist eine klassische Darstellung einer Korrelations-Heatmap.

Quelle

Erstellen einer Seaborn-Heatmap in Python

Seaborn ist eine Python-Bibliothek, die zur Datenvisualisierung verwendet wird und auf Matplotlib basiert. Es bietet ein informatives und optisch ansprechendes Medium, um Daten in einem statistischen Diagrammformat darzustellen. In einer mit Seaborn erstellten Heatmap stellt eine Farbpalette die Variation in verwandten Daten dar. Wenn Sie Anfänger sind und sich Fachwissen in Data Science aneignen möchten, sehen Sie sich unsere Data Science-Kurse an.

Schritte zum Erstellen einer Heatmap in Python

Die folgenden Schritte geben einen groben Überblick darüber, wie man eine einfache Heatmap in Python erstellt:

  • Importieren Sie alle erforderlichen Pakete
  • Importieren Sie die Datei, in der Sie Ihre Daten gespeichert haben
  • Zeichnen Sie die Heatmap
  • Zeigen Sie die Heatmap mit matplotlib an

Lassen Sie uns Ihnen nun zeigen, wie Seaborn zusammen mit Matplotlib und Pandas zum Generieren einer Heatmap verwendet werden kann.

In diesem Beispiel erstellen wir in Python eine Seaborn-Heatmap für 30 Aktien von Pharmaunternehmen. Die resultierende Heatmap zeigt die Aktiensymbole und ihre jeweilige prozentuale Kursänderung an einem Tag. Wir beginnen mit dem Sammeln der Marktdaten zu Pharmaaktien und erstellen eine CSV-Datei (Comma-Separated Value), die aus den Aktiensymbolen und der entsprechenden prozentualen Kursänderung in den ersten beiden Spalten dieser CSV-Datei besteht.

Da wir mit 30 Pharmaunternehmen zusammenarbeiten, werden wir eine Heatmap-Matrix mit 6 Zeilen und 5 Spalten erstellen. Außerdem soll die Heatmap die prozentuale Preisänderung in absteigender Reihenfolge darstellen. Daher werden wir die Aktien in der CSV-Datei in absteigender Reihenfolge anordnen und zwei weitere Spalten hinzufügen, um die Position jeder Aktie auf der X- und Y-Achse der Seaborn-Heatmap anzugeben.

Schritt 1: Importieren der Python-Pakete.

Quelle

Schritt 2: Laden des Datensatzes.

Der Datensatz wird mit der read_csv-Funktion von Pandas gelesen. Außerdem verwenden wir die print-Anweisung, um die ersten 10 Zeilen zu visualisieren.

Quelle

Schritt 3: Erstellen eines Python-Numpy-Arrays.

Unter Berücksichtigung der 6 x 5-Matrix erstellen wir ein n-dimensionales Array für die Spalten „Symbol“ und „Änderung“.

Quelle

Schritt 4: Erstellen eines Pivots in Python.

Aus dem gegebenen Datenrahmenobjekt „df“ erstellt die Pivot-Funktion eine neue abgeleitete Tabelle. Die Pivot-Funktion benötigt drei Argumente – Index, Spalten und Werte. Die Werte der Zellen der neuen Tabelle werden aus der Spalte „Änderung“ übernommen.

Quelle

Schritt 5: Erstellen eines Arrays zum Kommentieren der Heatmap.

Der nächste Schritt besteht darin, ein Array zum Kommentieren der seeseitigen Heatmap zu erstellen. Dazu rufen wir die Flatten-Methode für die Arrays „Prozent“ und „Symbol“ auf, um eine Python-Liste von Listen in einer Zeile zu glätten. Außerdem komprimiert die Zip-Funktion eine Liste in Python. Wir werden eine Python-for-Schleife ausführen und die Formatfunktion verwenden, um die Aktiensymbole und prozentualen Preisänderungswerte nach Bedarf zu formatieren.

Quelle

Schritt 6: Erstellen der Matplotlib-Figur und Definieren des Diagramms.

In diesem Schritt erstellen wir ein leeres Matplotlib-Diagramm und definieren die Größe der Figur. Außerdem fügen wir den Titel des Diagramms hinzu, legen die Schriftgröße des Titels fest und fixieren seinen Abstand zum Diagramm mithilfe der Methode set_position. Da wir schließlich nur die Aktiensymbole und ihre entsprechende prozentuale Kursänderung eines Tages anzeigen möchten, blenden wir die Ticks für die X- und Y-Achsen aus und entfernen die Achsen aus dem Diagramm.

Quelle

Schritt 7: Erstellen der Heatmap

Im letzten Schritt verwenden wir die Heatmap-Funktion aus dem Seaborn-Python-Paket, um die Heatmap zu erstellen. Die Heatmap-Funktion des Seaborn-Python-Pakets verwendet die folgenden Argumente:

  • Daten :

Es ist ein zweidimensionaler Datensatz, der in ein Array gezwungen werden kann. Bei einem Pandas DataFrame werden die Zeilen und Spalten mit den Index-/Spalteninformationen beschriftet.

  • Anmerkung :

Es ist ein Array mit der gleichen Form wie die Daten und kommentiert die Heatmap.

  • cmap:

Es ist ein Matplotlib-Objekt oder ein Colormap-Name und ordnet die Datenwerte dem Farbraum zu.

  • Fmt :

Es ist ein String-Formatierungscode, der beim Hinzufügen von Anmerkungen verwendet wird.

  • Linienbreiten:

Es legt die Breite der Linien fest, die jede Zelle teilen.

Quelle

Die endgültige Ausgabe der Seaborn-Heatmap für die ausgewählten Pharmaunternehmen sieht folgendermaßen aus:

Quelle

Der Weg in die Zukunft: Lernen Sie Python mit dem Professional Certificate Program in Data Science von upGrad

Das Professional Certificate Program in Data Science for Business Decision Making ist ein strenges, 8-monatiges Online-Programm, das sich auf Konzepte der Datenwissenschaft und des maschinellen Lernens mit besonderem Schwerpunkt auf deren realen Geschäftsanwendungen konzentriert. Das Programm richtet sich grundsätzlich an Manager und Berufstätige, die die praktischen Kenntnisse und Fähigkeiten der Datenwissenschaft entwickeln möchten, die ihnen helfen, strategische und datengesteuerte Geschäftsentscheidungen zu treffen.

Hier sind einige Kurshighlights:

  • Prestigeträchtige Anerkennung von IIM Kozhikode
  • Über 200 Stunden Inhalt
  • 3 Industrieprojekte und ein Schlussstein
  • Über 20 Live-Lernsitzungen
  • 5+ Experten-Coaching-Sitzungen
  • Abdeckung von Excel, Tableau, Python, R und Power BI
  • Eins-zu-eins mit Industrie-Mentoren
  • 360-Grad-Karriereunterstützung
  • Arbeitsassistenz bei Top-Firmen

Melden Sie sich bei upGrad an und verfeinern Sie Ihre Python-Heatmap-Fähigkeiten für alle Ihre Datenvisualisierungsanforderungen!

Fazit

Statistiker und Datenanalysten verwenden eine Fülle von Tools und Techniken, um die gesammelten Daten zu sortieren und sie leicht verständlich und benutzerfreundlich darzustellen. In dieser Hinsicht haben Heatmaps als Datenvisualisierungstechnik Unternehmen in allen Branchen geholfen, Daten besser zu visualisieren und zu verstehen.

Zusammenfassend lässt sich sagen, dass Heatmaps weit verbreitet sind und immer noch als eines der statistischen und analytischen Werkzeuge der Wahl verwendet werden. Dies liegt daran, dass sie eine optisch ansprechende und zugängliche Art der Datenpräsentation bieten, leicht verständlich, vielseitig und anpassungsfähig sind und die langwierigen Schritte der traditionellen Datenanalyse und -interpretation beseitigen, indem sie alle Werte in einem einzigen Rahmen präsentieren.

Wie zeichnet man eine Heatmap?

Eine Heatmap ist eine Standardmethode, um gruppierte Daten in einem zweidimensionalen grafischen Format darzustellen. Die Grundidee hinter dem Zeichnen einer Heatmap besteht darin, dass das Diagramm in Quadrate oder Rechtecke unterteilt wird, die jeweils eine Zelle in der Datentabelle, einen Datensatz und eine Zeile darstellen. Das Quadrat oder Rechteck ist entsprechend dem Wert dieser Zelle in der Tabelle farbcodiert.

Zeigt eine Heatmap eine Korrelation?

Eine Korrelations-Heatmap ist eine grafische Darstellung einer Korrelationsmatrix, die die Korrelation zwischen verschiedenen Variablen darstellt. Korrelations-Heatmaps sind sehr effektiv, wenn sie richtig verwendet werden, da stark korrelierte Variablen leicht identifiziert werden können.

Warum wird Seaborn in Python verwendet?

Seaborn ist eine Open-Source-Python-Bibliothek, die auf Matplotlib basiert. Es wird für die explorative Datenanalyse und -visualisierung verwendet und funktioniert problemlos mit Datenrahmen und der Pandas-Bibliothek. Außerdem sind die mit Seaborn erstellten Diagramme leicht anpassbar.