Das Konzept des hierarchischen Clustering in der Datenanalyse verstehen: Funktionen, Typen und Schritte

Veröffentlicht: 2023-04-08

Clustering bezeichnet die Gruppierung ähnlicher Daten in Gruppen oder Clustern in der Datenanalyse. Diese Cluster helfen Datenanalysten, ähnliche Datenpunkte in einer Gruppe zu organisieren und sie gleichzeitig von anderen Daten zu unterscheiden, die nicht ähnlich sind.

Das hierarchische Clustering von Daten ist eine der Methoden, die verwendet werden, um Daten in einem Baum von Clustern zu gruppieren. Dies ist einer der beliebtesten und nützlichsten Ansätze zur Datengruppierung. Wenn Sie Teil des wachsenden Bereichs der Datenwissenschaft und Datenanalyse werden möchten , ist hierarchisches Clustering eines der wichtigsten Dinge, die Sie lernen müssen.

Dieser Artikel hilft Ihnen, die Natur des hierarchischen Clusterings, seine Funktion, Typen und Vorteile zu verstehen.

Inhaltsverzeichnis

Was ist hierarchisches Clustering?
Wie funktioniert hierarchisches Clustering?
Arten von hierarchischem Clustering
- 1. Agglomeratives hierarchisches Clustering
- 2. Trennendes hierarchisches Clustering
Schritte im hierarchischen Clustering
Lesen Sie unsere beliebten Data Science-Artikel
Hierarchisches Clustering von Python
Entdecken Sie unsere beliebten Data Science-Kurse
Top Data Science-Fähigkeiten zum Erlernen
Abschluss
F. Warum verwenden wir hierarchisches Clustering in der Datenwissenschaft?
F. Wo wird hierarchisches Clustering verwendet?
F. Welche Einschränkungen gibt es beim hierarchischen Clustering?

Was ist hierarchisches Clustering?

Wie der Name schon sagt, gruppiert das hierarchische Clustering verschiedene Daten in Clustern in einem hierarchischen oder Baumformat. Jeder Datenpunkt wird bei dieser Methode als separater Cluster behandelt. Die hierarchische Clusteranalyse ist bei Datenwissenschaftlern und Datenanalysten sehr beliebt, da sie die Daten in einer überschaubaren Hierarchie von Clustern zusammenfasst, die einfacher zu analysieren ist.

Die hierarchischen Clustering- Algorithmen nehmen mehrere verschiedene Datenpunkte und nehmen den nächsten der beiden, um einen Cluster zu bilden. Es wiederholt diese Schritte, bis alle Datenpunkte zu einem Cluster werden. Der Prozess kann auch umgekehrt werden, um einen einzelnen zusammengeführten Cluster in verschiedene kleinere Cluster und schließlich in Datenpunkte zu unterteilen.

Das hierarchische Clustering-Verfahren kann visuell als Dendrogramm dargestellt werden, das ein baumähnliches Diagramm ist. Ein Dendrogramm kann an jedem Punkt während des Clustering-Prozesses abgeschnitten werden, wenn die gewünschte Anzahl von Clustern erstellt wurde. Dies erleichtert auch die Analyse der Daten.

Wie funktioniert hierarchisches Clustering?

Der Prozess des hierarchischen Clusterings ist recht einfach zu verstehen. Ein hierarchischer Clustering-Algorithmus behandelt alle verfügbaren Datensätze als unterschiedliche Cluster. Dann identifiziert es zwei Datensätze, die sich am ähnlichsten sind, und führt sie zu einem Cluster zusammen. Danach wiederholt das System diese Schritte so lange, bis alle Datenpunkte zu einem großen Cluster verschmelzen. Der Prozess kann auch gestoppt werden, sobald die erforderliche Anzahl von Clustern für die Analyse verfügbar ist.

Der Fortschritt und das Ergebnis eines hierarchischen Clustering-Prozesses kann als Dendrogramm visualisiert werden, das Ihnen dabei helfen kann, die Beziehung zwischen verschiedenen Clustern zu identifizieren und festzustellen, wie ähnlich oder unterschiedlich sie in der Natur sind.

Arten von hierarchischem Clustering

Ein hierarchischer Clustering-Algorithmus kann auf zwei verschiedene Arten verwendet werden. Hier sind die Merkmale von zwei Arten von hierarchischem Clustering, die Sie verwenden können.

1. Agglomeratives hierarchisches Clustering

Die agglomerative Methode ist die am häufigsten verwendete Methode zum hierarchischen Clustern von Daten. Bei dieser Methode werden dem Algorithmus mehrere verschiedene Datensätze präsentiert, von denen jeder als ein eigener Cluster behandelt wird. Dann beginnt der Algorithmus, basierend darauf, wie ähnlich sie einander sind, in Zweiercluster zu kombinieren. Er wiederholt diese Schritte, bis die erforderliche Anzahl von Clustern erreicht ist. Diese Methode wird häufiger in der hierarchischen Clusteranalyse verwendet .

2. Trennendes hierarchisches Clustering

Die divisive Methode der hierarchischen Clusterbildung ist die Umkehrung der agglomerativen Methode. Bei diesem Verfahren wird dem Algorithmus ein einziger großer Cluster aus zahlreichen Datenpunkten präsentiert, die er Schritt für Schritt anhand ihrer Verschiedenheit differenziert. Dadurch entstehen mehrere Datensätze mit unterschiedlichen Eigenschaften. Die Teilungsmethode wird in der Praxis nicht oft verwendet.

Lernen Sie Data Science-Kurse online von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Schritte im hierarchischen Clustering

Wie bereits erwähnt, gibt es drei Hauptschritte beim hierarchischen Clustering von Daten.

Die Identifizierung von Ähnlichkeiten zwischen zwei verschiedenen Datenpunkten.
Sie zu einem Cluster zusammenführen.
Wiederholen Sie diese Schritte für alle Datenpunkte, bis sie zu einem großen Datencluster zusammengeführt werden.

Es ist jedoch auch sehr wichtig, sich daran zu erinnern, wie man ähnliche Punkte in der hierarchischen Clusterbildung identifiziert. Wenn Sie ein Dendrogramm untersuchen, das von einem Algorithmus erstellt wurde, können Sie leicht die zentralen Punkte jedes einzelnen Clusters identifizieren. Am ähnlichsten sind die Cluster, die im Dendrogramm den geringsten Abstand voneinander haben. Aus diesem Grund wird er auch als entfernungsbasierter Algorithmus bezeichnet. Die Ähnlichkeit zwischen einem Cluster und allen anderen in einem Dendrogramm wird als Nachbarschaftsmatrix bezeichnet.

Sie müssen auch das richtige Entfernungsmaß auswählen, wenn Sie hierarchisches Clustering verwenden. Je nachdem, ob Sie beispielsweise Ihr Geschlecht oder Ihren Bildungshintergrund als Distanzmaß gewählt haben, erzeugt ein Datensatz, der Informationen über dieselben Personen enthält, unterschiedliche Dendrogramme.

Lesen Sie unsere beliebten Data Science-Artikel

Data Science Career Path: Ein umfassender Karriereleitfaden	Data Science Karrierewachstum: Die Zukunft der Arbeit ist da	Warum ist Data Science wichtig? 8 Wege, wie Data Science dem Unternehmen einen Mehrwert bringt
Relevanz von Data Science für Manager	Der ultimative Data Science Spickzettel, den jeder Data Scientist haben sollte	Die 6 wichtigsten Gründe, warum Sie Data Scientist werden sollten
Ein Tag im Leben von Data Scientists: Was machen sie?	Mythos gesprengt: Data Science braucht keine Codierung	Business Intelligence vs. Data Science: Was sind die Unterschiede?

Hierarchisches Clustering von Python

Nachdem Sie nun ein klares Verständnis des hierarchischen Clusterings haben, schauen wir uns an, wie man hierarchisches Clustering Python durchführt . So würde die Durchführung von hierarchischem Clustering mit Pythons„scikit-learn“ -Bibliothek aussehen .

Nehmen wir an, dass es zwei Variablen ( x und y) in einem Datensatz mit sechs Beobachtungen gibt:

Beobachtungen	X	j
1	1	1
2	2	1
3	4	3
4	5	4
5	6	5
6	7	5

Als Streudiagramm werden diese Beobachtungen wie folgt visualisiert:

Python

importiere numpy als

importiere matplotlib.pyplot als plt

# Den Datensatz definieren

X = np.array([[ 1,1], [2,1], [4,3], [5,4], [6,5], [7,5]])

# Zeichnen Sie die Daten

plt.scatter(X[:, 0], X[:,1])

plt.show()

Es gibt zwei Gruppen von Beobachtungen in diesem Diagramm – eine enthält niedrigere Werte von x und yund die andere mit höheren Werten vonxundy.

Sie können'scikit learn' verwenden , um hierarchisches Clustering für dieses Dataset durchzuführen.

Die beiden Beobachtungscluster im Diagramm haben unterschiedliche Werte. Der eine besteht aus höheren x- und y-Werten , der andere aus niedrigeren.

Sehen Sie sich unserekostenlosen Data-Science-Kurse an , um sich einen Wettbewerbsvorteil zu verschaffen.

Von den zwei Hauptmethoden des hierarchischen Clusterings, die wir zuvor besprochen haben, werden wir das agglomerative Clustering-Verfahren mit dem „ward “-Linkage-Verfahren verwenden.Die "Ward" -Methode minimiert die Variationen der Cluster, die miteinander verschmolzen werden, wodurch Cluster erzeugt werden, die in Größe und Form ähnlich sind.

Entdecken Sie unsere beliebten Data Science-Kurse

Executive Post Graduate Program in Data Science vom IIITB	Professional Certificate Program in Data Science für die Entscheidungsfindung in Unternehmen	Master of Science in Data Science von der University of Arizona
Advanced Certificate Program in Data Science vom IIITB	Professional Certificate Program in Data Science und Business Analytics von der University of Maryland	Data Science-Kurse

Python

aus sklearn.clusterimportAgglomerativeClustering

# Hierarchisches Clustering durchführen

Clustering AgglomerativeClustering (n_clusters= 2, linkage='ward').fit(X)

Der Parameter „n-clusters “ wurde hier verwendet, um anzugeben, dass wir zwei Cluster wollen.

Wir können für jeden Cluster verschiedene Farben verwenden, wenn wir sie zeichnen:

Python

# Zeichnen Sie die Cluster

colors= np.array([' r', 'b'])

plt.scatter (X[:, 0], X[:,1], c=colors [clustering.labels_])

plt.show()

Die beiden Cluster in den Daten wurden vom Clustering-Algorithmus korrekt identifiziert. Sie können auch verwenden, welche Bezeichnung der Clustering-Algorithmus jeder Beobachtung zugewiesen hat:

Python

drucken (clustering.labels_)

scharf

[ 0 0 1 1 1 1]

Die letzten vier Beobachtungen wurden dem Cluster 1 zugeordnet, während die ersten beiden dem Cluster 0 zugeordnet wurden.

Wenn Sie die hierarchische Struktur dieser Cluster visualisieren möchten, können Sie dazu ein Dendrogramm erstellen:

Python

aus scipy.cluster.hierarchyImportDendrogramm, Verknüpfung

# Berechnen Sie die Verknüpfungsmatrix

Z = Verknüpfung (X, ' Station')

# Zeichnen Sie das Dendrogramm

Dendrogramm(Z)

plt.show()

Das Dendrogramm kann uns helfen, die Hierarchie zusammengeführter Cluster zu visualisieren.

Top Data Science-Fähigkeiten zum Erlernen

	Top Data Science-Fähigkeiten zum Erlernen
1	Datenanalysekurs	Inferenzstatistik-Kurse
2	Programme zum Testen von Hypothesen	Logistische Regressionskurse
3	Lineare Regressionskurse	Lineare Algebra für die Analyse

Abschluss

Daten-Clustering ist ein sehr wichtiger Teil der Datenwissenschaft und Datenanalyse. Wenn Sie verschiedene Clustering-Methoden lernen möchten, kann Ihnen upGrad dabei helfen, Ihre Lernreise in Gang zu bringen! Mit Hilfe von Meisterkursen, Branchensitzungen, Mentoring-Sitzungen, Python Programming Bootcamp und Live-Lernsitzungen ist der Master of Science in Data Science von upGrad ein Kurs, der für Fachleute entwickelt wurde, um einen Vorteil gegenüber Mitbewerbern zu erlangen.

Dieser Kurs wird unter der Leitung der University of Arizona angeboten und fördert Ihre Data-Science-Karriere mit einem hochmodernen Lehrplan, umfassenden Lernerfahrungen mit Branchenexperten und Beschäftigungsmöglichkeiten.

F. Warum verwenden wir hierarchisches Clustering in der Datenwissenschaft?

Hierarchisches Clustering wird verwendet, um Daten basierend auf verschiedenen ähnlichen Attributen zu gruppieren. Die Verteilung von Datenaspekten in visuell verständliche Gruppen vereinfacht die praktische Umsetzung durch einfaches Betrachten des Dendrogramms.

F. Wo wird hierarchisches Clustering verwendet?

Hierarchisches Clustering ist eine weit verbreitete Form der Gruppierung von Daten, die über Websites sozialer Netzwerke generiert werden. Anhand dieser Daten können Analysten wertvolle Erkenntnisse gewinnen, die relevant sind, um ihre Geschäftsprozesse zu verbessern und den Umsatz zu steigern.

F. Welche Einschränkungen gibt es beim hierarchischen Clustering?

Hierarchisches Clustering eignet sich nicht für gemischte Typen oder fehlende Daten. Eine weitere Einschränkung des hierarchischen Clusterings besteht darin, dass es bei einem sehr großen Datensatz nicht gut funktioniert.