Erläuternder Leitfaden zum Clustering im Data Mining – Definition, Anwendungen und Algorithmen

Veröffentlicht: 2021-02-25

Inhaltsverzeichnis

Einführung – Was ist Data Mining und Clustering?
Warum Clustering verwenden? – Verwendung von Clustering
- Reale Anwendungsfälle von Clustering – Anwendungen
Verschiedene Arten von Clustering-Methoden – Algorithmen
- 1. Hierarchisches Clustering-Verfahren
- 2. Partitionierungs-Clustering-Methode
- 3. Dichtebasiertes Clustering-Verfahren
- 4. Gitterbasiertes Clustering-Verfahren
- 5. Modellbasiertes Clustering-Verfahren
- 6. Beschränkungsbasiertes Clustering-Verfahren
Fazit
- Welche Vor- und Nachteile hat Agglomeratives Clustering?
- Was ist die erwartete Maximierung in GMM?
- Was sind die Anwendungen von Clustering?

Einführung – Was ist Data Mining und Clustering?

Verschiedene Organisationen haben riesige Datenmengen zur Hand und es gibt einen Grund, warum diese Organisationen sich dafür entscheiden, sie zu speichern. Sie verwenden diese Daten, um einige Erkenntnisse aus den Daten zu extrahieren, die ihnen bei der Steigerung ihrer Rentabilität helfen können. Der Prozess des Extrahierens der Erkenntnisse und zugrunde liegenden Muster aus dem Rohdatensatz wird als Data Mining bezeichnet. Eine der Möglichkeiten, diese aufschlussreichen Muster zu extrahieren, ist Clustering.

Clustering bezieht sich auf die Gruppierung von Datenpunkten, die gemeinsame Merkmale aufweisen. Mit anderen Worten, es ist ein Prozess, der den Datensatz analysiert und Cluster der Datenpunkte erstellt. Ein Cluster ist nichts anderes als eine Gruppierung solcher ähnlicher Datenpunkte. Bei der Clustering-Verarbeitung werden die Datenpunkte zunächst zu Clustern zusammengefasst und diesen Clustern dann Labels zugeordnet.

Um Clustering auf dem Datensatz durchzuführen, verwenden wir im Allgemeinen unüberwachte Lernalgorithmen, da die Ausgabeetiketten im Datensatz nicht bekannt sind. Clustering kann als Teil der explorativen Datenanalyse verwendet werden und kann für die Modellierung verwendet werden, um aufschlussreiche Cluster zu erhalten. Die Cluster sollten so optimiert werden, dass der Abstand zwischen den Datenpunkten innerhalb eines Clusters minimal und der Abstand zwischen den verschiedenen Clustern möglichst groß sein sollte.

Warum Clustering verwenden? – Verwendung von Clustering

Die bessere Interpretation der Daten – Mittels Clustering sind die aus dem Datensatz extrahierten Muster für Laien leicht verständlich und damit leicht interpretierbar.
Erkenntnisse aus hochdimensionalen Daten – Die hochdimensionalen Datensätze sind nicht einfach zu analysieren, indem man sich nur ihre Merkmale ansieht. Die Verwendung von Clustering kann dabei helfen, einige Einblicke zu gewinnen und einige Muster aus den riesigen Daten zu extrahieren. Es kann eine Zusammenfassung liefern, die bei der Lösung einiger Fragen nützlich sein könnte.
Entdeckung beliebiger Cluster – Mit Hilfe verschiedener Clustering-Methoden können wir Cluster finden, die jede beliebige Form annehmen können. Dies kann dabei helfen, die zugrunde liegenden Eigenschaften des Datensatzes zu erhalten.

Reale Anwendungsfälle von Clustering – Anwendungen

Ihr Unternehmen hat ein neues Produkt auf den Markt gebracht und Sie sind dafür verantwortlich, dass das Produkt den richtigen Personenkreis erreicht, damit Ihr Unternehmen maximale Rentabilität erzielen kann. In diesem Fall ist es das Problem, den richtigen Personentyp zu identifizieren. Sie können Clustering in der Kundendatenbank durchführen, um die richtige Personengruppe zu identifizieren, indem Sie ihr Kaufverhalten analysieren.
Ihr Unternehmen hat Unmengen an nicht kategorisierten Bildern und Ihr Vorgesetzter bittet Sie, diese nach dem Inhalt der Bilder zu gruppieren. Sie können Clustering verwenden, um eine Bildsegmentierung für diese Bilder durchzuführen. Sie können auch Clustering verwenden, wenn Sie gebeten werden, einige Muster aus den vorhandenen Daten zu extrahieren.

Verschiedene Arten von Clustering-Methoden – Algorithmen

1. Hierarchisches Clustering-Verfahren

Diese Methode gruppiert oder teilt die Cluster basierend auf der ausgewählten Entfernungsmetrik wie Euklidische Entfernung, Manhattan-Entfernung usw. Sie wird im Allgemeinen mit einem Dendrogramm dargestellt. Es erstellt eine Abstandsmatrix zwischen allen Clustern, die den Abstand zwischen ihnen angibt. Unter Verwendung dieser Abstandsmetrik erfolgt die Verknüpfung zwischen den Clustern basierend auf der Art der Verknüpfung.

Da es in einem Cluster viele Datenpunkte geben kann, sind die Abstände zwischen allen Punkten aus einem Cluster und allen Punkten in einem anderen Cluster unterschiedlich. Dies macht es schwierig zu entscheiden, welcher Abstand berücksichtigt werden sollte, der über das Zusammenführen der Cluster entscheidet. Um dies anzugehen, verwenden wir die Verknüpfungskriterien, um zu bestimmen, welche Cluster verknüpft werden sollten. Es gibt drei gängige Arten von Verknüpfungen: –

Single Linkage – Der Abstand zwischen den beiden Clustern wird durch den kürzesten Abstand zwischen Punkten in diesen beiden Clustern dargestellt.
Vollständige Verknüpfung – Der Abstand zwischen den beiden Clustern wird durch den maximalen Abstand zwischen Punkten in diesen beiden Clustern dargestellt.
Durchschnittliche Verknüpfung – Der Abstand zwischen den beiden Clustern wird dargestellt, indem der durchschnittliche Abstand zwischen Punkten in diesen beiden Clustern berechnet wird.

Agglomerativer Ansatz – Wird auch Bottom-Up-Ansatz genannt. Hier wird jeder Datenpunkt in der Anfangsphase als Cluster betrachtet und diese Cluster dann nacheinander zusammengeführt.

Divisiver Ansatz – Dies wird auch als Top-Down-Ansatz bezeichnet. Hier werden alle Datenpunkte in der Anfangsphase als ein Cluster betrachtet und dann werden diese Datenpunkte geteilt, um weitere Cluster zu erstellen.

2. Partitionierungs-Clustering-Methode

Diese Methode erstellt Cluster basierend auf den Merkmalen und Ähnlichkeiten zwischen den Datenpunkten. Die Algorithmen, die diese Methodik verwenden, erfordern die Anzahl der zu erstellenden Cluster als Eingabe. Diese Algorithmen folgen dann einem iterativen Ansatz, um diese Anzahl von Clustern zu erstellen. Einige der Algorithmen, die dieser Methodik folgen, sind wie folgt: –

K-Means-Clustering

K-Means verwendet Entfernungsmetriken wie Manhattan-Entfernung, euklidische Entfernung usw., um die angegebene Anzahl von Clustern zu erstellen. Es berechnet den Abstand zwischen den Datenpunkten und dem Schwerpunkt der Cluster. Die Datenpunkte werden dann den nächsten Clustern zugeordnet und der Schwerpunkt des Clusters wird neu berechnet. Solche Iterationen werden wiederholt, bis die vordefinierte Anzahl von Iterationen abgeschlossen ist oder sich die Schwerpunkte der Cluster nach der Iteration nicht ändern.

PAM (Partitionieren um Medoids)

Auch als K-Medoid-Algorithmus bekannt, ähnelt die Funktionsweise dieses Algorithmus der von K-Means. Es unterscheidet sich vom K-Means darin, wie das Zentrum des Clusters zugewiesen wird. In PAM ist das Medoid des Clusters ein tatsächlicher Datenpunkt, während es in K-Means den Schwerpunkt der Datenpunkte berechnet, die möglicherweise nicht die Koordinaten eines tatsächlichen Datenpunkts sind. Bei PAM werden k Datenpunkte zufällig als Medoide der Cluster ausgewählt und der Abstand zwischen allen Datenpunkten und den Medoiden der Cluster berechnet.

Lesen Sie: Data Analytics vs. Data Science

3. Dichtebasiertes Clustering-Verfahren

Diese Methode erstellt Cluster basierend auf der Dichte der Datenpunkte. Die Regionen werden dichter, wenn immer mehr Datenpunkte in derselben Region liegen und diese Regionen als Cluster betrachtet werden. Die Datenpunkte, die weit entfernt von den dichten Regionen liegen, oder die Bereiche, in denen die Anzahl der Datenpunkte sehr gering ist, werden als Ausreißer oder Rauschen betrachtet. Folgende Algorithmen basieren auf dieser Methodik: –

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) : – DBSCAN erstellt Cluster basierend auf der Entfernung der Datenpunkte. Es gruppiert die Datenpunkte, die sich in der gleichen Nachbarschaft befinden. Um als Cluster betrachtet zu werden, muss sich eine bestimmte Anzahl von Datenpunkten in dieser Region befinden. Es werden zwei Parameter benötigt – eps und minimale Punkte – eps geben an, wie nahe die Datenpunkte sein sollten, um als Nachbarn betrachtet zu werden, und minimale Punkte sind die Anzahl der Datenpunkte, die sich innerhalb dieser Region befinden müssen, um als Cluster betrachtet zu werden.
OPTICS (Ordering Points to Identify Clustering Structure) : – Dies ist eine Modifikation des DBSCAN-Algorithmus. Eine der Einschränkungen des DBSCAN-Algorithmus ist seine Unfähigkeit, aussagekräftige Cluster zu erstellen, wenn die Datenpunkte gleichmäßig im Datenraum verteilt sind. Um diese Einschränkung zu überwinden, berücksichtigt der OPTICS-Algorithmus zwei weitere Parameter – Kernentfernung und Erreichbarkeitsentfernung. Kernabstand gibt an, ob der Datenpunkt ein Kernpunkt ist, indem ein Wert dafür definiert wird. Die Erreichbarkeitsentfernung ist definiert als das Maximum der Kernentfernung und der Wert der Entfernungsmetrik, die zur Berechnung der Entfernung zwischen zwei Datenpunkten verwendet wird.

4. Gitterbasiertes Clustering-Verfahren

Die Ideologie dieser Methode unterscheidet sich von den anderen üblicherweise verwendeten Methoden. Dieses Verfahren stellt den gesamten Datenraum als Gitterstruktur dar und umfasst mehrere Gitter oder Zellen. Es folgt eher einem raumgesteuerten Ansatz als einem datengesteuerten Ansatz. Mit anderen Worten, es geht mehr um den Raum, der die Datenpunkte umgibt, als um die Datenpunkte selbst.

Dadurch konvergiert der Algorithmus schneller und sorgt für eine enorme Reduzierung der Rechenkomplexität. Im Allgemeinen initialisieren die Algorithmen das Clustering, indem sie den Datenraum in die Anzahl von Zellen unterteilen, wodurch eine Gitterstruktur erzeugt wird. Dann berechnet es die Dichte dieser Zellen und sortiert sie nach ihrer Dichte. Algorithmen wie STING (Statistical Information Grid Approach), WaveCluster, CLIQUE (Clustering in Quest) fallen in diese Kategorie.

5. Modellbasiertes Clustering-Verfahren

Diese Methode geht davon aus, dass die Daten durch eine Mischung von Wahrscheinlichkeitsverteilungen generiert werden. Jede dieser Verteilungen kann als Cluster betrachtet werden. Es versucht, die Anpassung zwischen den Daten und dem Modell zu optimieren. Die Parameter der Modelle können mithilfe von Algorithmen wie Expectation-Maximization, Conceptual Clustering usw. geschätzt werden.

6. Beschränkungsbasiertes Clustering-Verfahren

Diese Methode versucht, Cluster zu finden, die benutzerorientierte Einschränkungen erfüllen. Es fällt unter die Klasse der halbüberwachten Methodik. Diese Methodik ermöglicht es Benutzern, Cluster basierend auf ihren Präferenzen zu erstellen. Dies ist praktisch, wenn wir nach einigen Clustern mit bestimmten Eigenschaften suchen.

Da sich die gebildeten Cluster während dieses Prozesses jedoch auf die Benutzerpräferenzen konzentrieren, werden möglicherweise einige zugrunde liegende Merkmale und aufschlussreiche Cluster nicht gebildet. Die Algorithmen, die diesem Ansatz folgen, sind COP K-Means, PCKMeans (Pairwise Constrained K-Means) und CMWK-Means (Constrained Minkowski Weighted K-Means).

Lesen Sie auch: Ideen für Data Science-Projekte

Lernen Sie Data Science-Kurse online von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Fazit

Clustering-Algorithmen haben sich als sehr effektiv erwiesen, um Erkenntnisse aus den Daten für die Unternehmensproduktivität zu gewinnen. Die gängigen Algorithmen, die in den verschiedenen Organisationen verwendet werden, können Ihnen die erwarteten Ergebnisse liefern, aber auch die unorthodoxen sind einen Versuch wert. Dieser Artikel konzentrierte sich darauf, was Clustering ist und wie es als Teil des Data Mining verwendet werden kann. Es wurden auch einige der Verwendungsmöglichkeiten von Clustering, wie Clustering im wirklichen Leben verwendet werden kann, und die verschiedenen Arten von Clustering-Methoden aufgeführt.

Wenn Sie neugierig sind, mehr über Data Science zu erfahren, schauen Sie sich das Executive PG in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1- on-1 mit Mentoren aus der Branche, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Welche Vor- und Nachteile hat Agglomeratives Clustering?

AGNES beginnt mit der Erkenntnis, dass jeder Datenpunkt seinen eigenen Cluster haben wird, und selbst wenn es n Datenzeilen gibt, beginnt der Algorithmus mit n Clustern. Anschließend werden iterativ die ähnlichsten Cluster in Abhängigkeit von den in DIANA gemessenen Abständen zu einem größeren Cluster zusammengefügt. Es werden Iterationen durchgeführt, bis wir einen einzigen großen Cluster erhalten, der alle Datenpunkte enthält.
Vorteile:
1. Obwohl der Benutzer einen Teilungsschwellenwert definieren muss, ist keine vorherige Kenntnis der Anzahl von Clustern erforderlich.
2. Einfach auf eine Vielzahl von Datentypen anzuwenden und dafür bekannt, zuverlässige Ergebnisse für Daten zu liefern, die aus einer Vielzahl von Quellen stammen. Dadurch hat es ein breites Anwendungsspektrum.
Nachteile:
1. Die Cluster-Aufteilung (DIANA) oder -Kombination (AGNES) ist ziemlich rigoros, und wenn sie einmal erledigt ist, kann sie in nachfolgenden Iterationen oder Wiederholungen nicht rückgängig gemacht oder neu zugewiesen werden.
2. Es hat eine hohe zeitliche Komplexität für alle n Datenpunkte in der Größenordnung von O(n^2logn) und kann daher nicht für größere Datensätze verwendet werden.
3. Unfähig, mit Ausreißern und Rauschen umzugehen

Was ist die erwartete Maximierung in GMM?

Wir gehen davon aus, dass die Datenpunkte in Gaussian Mixed Models mit einer Gaußschen Verteilung übereinstimmen, was im Vergleich zu den Einschränkungen in den früheren Ansätzen niemals eine Einschränkung darstellt. Darüber hinaus kann diese Hypothese zu kritischen Auswahlkriterien für Clusterformen führen – das heißt, Clusterformen können jetzt gemessen werden. Die beiden häufigsten und einfachsten Metriken – Mittelwert und Varianz – werden verwendet, um die Daten zu quantifizieren.
Erwartungsmaximierung, eine Art Optimierungsfunktion, wird verwendet, um den Mittelwert und die Varianz zu bestimmen. Diese Funktion beginnt mit einem Satz von zufälligen Gaußschen Parametern, wie z. B., und prüft, ob die Hypothese bestätigt, dass eine Stichprobe zu Cluster c gehört. Danach fahren wir mit dem Maximierungsschritt fort, bei dem die Gaußschen Parameter aktualisiert werden, damit sie zu den dem Cluster zugewiesenen Punkten passen. Das Ziel der Maximierungsstufe besteht darin, die Wahrscheinlichkeit zu erhöhen, dass die Stichprobe zur Clusterverteilung gehört.

Was sind die Anwendungen von Clustering?

Werfen wir einen Blick auf einige der geschäftlichen Anwendungen von Clustering und wie es in Data Mining passt.
1. Es ist die Grundlage von Suchmaschinenalgorithmen, die erfordern, dass Objekte, die einander ähnlich sind, zusammengegeben werden und dass Objekte, die sich nicht unterscheiden, ignoriert werden.
2. Clustering-Algorithmen haben ihre Wirksamkeit bei der Erkennung bösartiger Zellen aus verschiedenen medizinischen Bildgebungsverfahren unter Verwendung von Bildsegmentierung in der Bioinformatik, der Beseitigung menschlicher Fehler und anderer Vorurteile unter Beweis gestellt.
3. Clustering wurde von Netflix verwendet, um Filmvorschläge für seine Zuschauer zu erstellen.
4. Die Clusteranalyse, die Artikel in eine Gruppe verwandter Themen unterteilt, kann verwendet werden, um Nachrichten zusammenzufassen.
5. Die Lebensläufe von Arbeitssuchenden können in Abhängigkeit von einer Vielzahl von Variablen wie Fähigkeiten, Erfahrungen, Stärken, Projekttypen, Fachwissen usw. in Kategorien eingeteilt werden, sodass potenzielle Arbeitgeber mit den richtigen Personen in Kontakt treten können.