Guide explicatif du clustering dans l'exploration de données - Définition, applications et algorithmes

Publié: 2021-02-25

Table des matières

Introduction - Qu'est-ce que l'exploration de données et le clustering ?

Diverses organisations disposent d'énormes données et il y a une raison pour laquelle ces organisations choisissent de les stocker. Ils utilisent ces données pour extraire des informations des données qui peuvent les aider à augmenter leur rentabilité. Le processus d'extraction des informations et des modèles sous-jacents de l'ensemble de données brutes est appelé Data Mining. L'un des moyens d'extraire ces modèles perspicaces est le clustering.

Le clustering fait référence au regroupement de points de données qui présentent des caractéristiques communes. En d'autres termes, il s'agit d'un processus qui analyse l'ensemble de données et crée des grappes de points de données. Un cluster n'est rien d'autre qu'un regroupement de ces points de données similaires. Dans le traitement du clustering, les points de données sont d'abord regroupés pour former des clusters, puis des étiquettes sont attribuées à ces clusters.

Pour effectuer le regroupement sur l'ensemble de données, nous utilisons généralement des algorithmes d'apprentissage non supervisé car les étiquettes de sortie ne sont pas connues dans l'ensemble de données. Le clustering peut être utilisé dans le cadre de l'analyse exploratoire des données et peut être utilisé pour la modélisation afin d'obtenir des clusters perspicaces. Les clusters doivent être optimisés de manière à ce que la distance entre les points de données à l'intérieur d'un cluster soit minimale et que la distance entre les différents clusters soit aussi grande que possible.

Pourquoi utiliser le clustering ? – Usages du clustering

  1. La meilleure interprétation des données - En utilisant le clustering, les modèles extraits de l'ensemble de données peuvent être facilement compris par les profanes et peuvent donc être interprétés facilement.
  2. Aperçus des données de grande dimension - Les ensembles de données de grande dimension ne sont pas faciles à analyser simplement en examinant leurs caractéristiques. L'utilisation du clustering peut aider à fournir des informations et à extraire certains modèles à partir des énormes données. Il peut fournir un résumé qui pourrait être utile pour résoudre certaines questions.
  3. Découverte de clusters arbitraires - À l'aide de différentes méthodes de clustering, nous pouvons trouver des clusters pouvant prendre n'importe quelle forme aléatoire. Cela peut aider à obtenir les caractéristiques sous-jacentes de l'ensemble de données.

Cas d'utilisation réels du clustering - Applications

  1. Votre entreprise a lancé un nouveau produit et vous êtes chargé de vous assurer que le produit s'adresse au bon groupe de personnes afin que votre entreprise puisse atteindre une rentabilité maximale. Dans ce cas, identifier le bon type de personnes est le problème à résoudre. Vous pouvez effectuer un regroupement sur la base de données clients pour identifier le bon groupe de personnes en analysant leurs habitudes d'achat.
  2. Votre entreprise possède des tonnes d'images non catégorisées et votre superviseur vous demande de les regrouper en fonction du contenu des images. Vous pouvez utiliser le clustering pour effectuer une segmentation d'image sur ces images. Vous pouvez également utiliser le clustering s'ils vous demandent d'extraire certains modèles des données existantes.

Différents types de méthodes de clustering – Algorithmes

1. Méthode de clustering hiérarchique

Cette méthode regroupe ou divise les clusters en fonction de la mesure de distance sélectionnée, telle que la distance euclidienne, la distance de Manhattan, etc. Elle est généralement représentée à l'aide d'un dendrogramme. Il crée une matrice de distance entre tous les clusters qui indique la distance entre eux. À l'aide de cette métrique de distance, le lien entre les clusters est établi en fonction du type de lien.

Comme il peut y avoir de nombreux points de données dans un cluster, les distances entre tous les points d'un cluster et tous ceux d'un autre cluster seront différentes. Cela rend difficile de décider quelle distance doit être considérée qui décidera de la fusion des clusters. Pour résoudre ce problème, nous utilisons les critères de liaison pour déterminer quels clusters doivent être liés. Il existe trois types courants de liens : –

  • Liaison unique - La distance entre les deux clusters est représentée par la distance la plus courte entre les points de ces deux clusters.
  • Liaison complète - La distance entre les deux clusters est représentée par la distance maximale entre les points de ces deux clusters.
  • Liaison moyenne - La distance entre les deux clusters est représentée en calculant la distance moyenne entre les points de ces deux clusters.

Approche agglomérative - Elle est également appelée approche ascendante. Ici, chaque point de données est considéré comme un cluster lors de la phase initiale, puis il fusionne ces clusters un par un.

Approche de division - On l'appelle aussi une approche descendante. Ici, tous les points de données sont considérés comme un seul cluster lors de la phase initiale, puis ces points de données sont divisés pour créer plus de clusters.

2. Méthode de clustering de partitionnement

Cette méthode crée des clusters en fonction des caractéristiques et des similitudes entre les points de données. Les algorithmes utilisant cette méthodologie nécessitent le nombre de clusters à créer en entrée. Ces algorithmes suivent ensuite une approche itérative pour créer ce nombre de clusters. Certains des algorithmes suivant cette méthodologie sont les suivants : –

  • Clustering K-Means

K-Means utilise des métriques de distance telles que la distance de Manhattan, la distance euclidienne, etc. pour créer le nombre de clusters spécifié. Il calcule la distance entre les points de données et le centroïde des clusters. Les points de données sont ensuite attribués aux clusters les plus proches et le centroïde du cluster est recalculé. Ces itérations sont répétées jusqu'à ce que le nombre prédéfini d'itérations soit terminé ou que les centroïdes des clusters ne changent pas après l'itération.

  • PAM (Partitionnement autour des médoïdes)

Également connu sous le nom d'algorithme K-Medoid, le fonctionnement de cet algorithme est similaire à celui de K-Means. Il diffère des K-Means en termes d'attribution du centre du cluster. Dans PAM, le médoïde du cluster est un point de données réel alors que dans K-Means, il calcule le centroïde des points de données qui peuvent ne pas être les coordonnées d'un point de données réel. Dans PAM, k points de données sont sélectionnés au hasard comme médoïdes des clusters et la distance est calculée entre tous les points de données et les médoïdes des clusters.

Lire : Data Analytics vs Data Science

3. Méthode de regroupement basée sur la densité

Cette méthode crée des clusters en fonction de la densité des points de données. Les régions deviennent denses à mesure que de plus en plus de points de données se trouvent dans la même région et ces régions sont considérées comme des clusters. Les points de données qui se trouvent loin des régions denses ou des zones où les points de données sont très peu nombreux sont considérés comme des valeurs aberrantes ou du bruit. Les algorithmes suivants sont basés sur cette méthodologie : –

  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise) : – DBSCAN crée des clusters en fonction de la distance des points de données. Il regroupe les points de données qui sont dans le même voisinage. Pour être considéré comme un cluster, un nombre spécifique de points de données doit résider dans cette région. Il faut deux paramètres - eps et points minimum - eps indique à quel point les points de données doivent être considérés comme voisins et les points minimum sont le nombre de points de données qui doivent résider dans cette région pour être considérés comme un cluster.
  • OPTICS (Ordering Points to Identify Clustering Structure) : – Il s'agit d'une modification de l'algorithme DBSCAN. L'une des limites de l'algorithme DBSCAN est son incapacité à créer des clusters significatifs lorsque les points de données sont également répartis dans l'espace de données. Pour surmonter cette limitation, l'algorithme OPTICS prend en compte deux paramètres supplémentaires - la distance centrale et la distance d'accessibilité. La distance centrale indique si le point de données est un point central en définissant une valeur pour celui-ci. La distance d'accessibilité est définie comme le maximum de la distance centrale et la valeur de la métrique de distance utilisée pour calculer la distance entre deux points de données.

4. Méthode de clustering basée sur la grille

L'idéologie de cette méthode est différente du reste des méthodes couramment utilisées. Cette méthode représente l'ensemble de l'espace de données sous la forme d'une structure de grille et comprend plusieurs grilles ou cellules. Il suit davantage une approche axée sur l'espace plutôt qu'une approche axée sur les données. En d'autres termes, il est plus préoccupé par l'espace entourant les points de données que par les points de données eux-mêmes.

De ce fait, l'algorithme converge plus rapidement et offre une réduction considérable de la complexité de calcul. En général, les algorithmes initialisent le regroupement en divisant l'espace de données en nombre de cellules, créant ainsi une structure de grille. Ensuite, il calcule la densité de ces cellules et les trie en fonction de leurs densités. Des algorithmes comme STING (Statistical Information Grid Approach), WaveCluster, CLIQUE (Clustering in Quest) entrent dans cette catégorie.

5. Méthode de clustering basée sur un modèle

Cette méthode suppose que les données sont générées par un mélange de distributions de probabilité. Chacune de ces distributions peut être considérée comme un cluster. Il essaie d'optimiser l'ajustement entre les données et le modèle. Les paramètres des modèles peuvent être estimés en utilisant des algorithmes tels que Expectation-Maximization, Conceptual Clustering, etc.

6. Méthode de clustering basée sur les contraintes

Cette méthode essaie de trouver des clusters qui satisfont les contraintes orientées utilisateur. Elle relève de la classe des méthodologies semi-supervisées. Cette méthodologie permet aux utilisateurs de créer des clusters en fonction de leurs préférences. Cela est pratique lorsque nous recherchons des clusters avec des caractéristiques spécifiques.

Mais au cours de ce processus, comme les clusters formés sont axés sur les préférences de l'utilisateur, certaines caractéristiques sous-jacentes et des clusters perspicaces peuvent ne pas être formés. Les algorithmes qui suivent cette approche sont COP K-Means, PCKMeans (Pairwise Constrained K-Means) et CMWK-Means (Constrained Minkowski Weighted K-Means).

Lisez aussi : Idées de projets de science des données

Apprenez des cours de science des données en ligne dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Conclusion

Les algorithmes de clustering se sont avérés très efficaces pour fournir des informations à partir des données pour la productivité des entreprises. Les algorithmes communs utilisés dans les différentes organisations peuvent vous fournir les résultats attendus, mais ceux qui sont peu orthodoxes valent également la peine d'être essayés. Cet article s'est concentré sur ce qu'est le clustering et comment peut-il être utilisé dans le cadre de l'exploration de données. Il a également enrôlé quelques-unes des utilisations du clustering, comment le clustering peut être utilisé dans la vie réelle et les différents types de méthodes de clustering.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le PG exécutif de IIIT-B & upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1- on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Quels sont les avantages et les inconvénients du clustering agglomératif ?

AGNES commence par reconnaître que chaque point de données aura son propre cluster, et même s'il y a n lignes de données, l'algorithme commencera avec n clusters. Ensuite, itérativement, les clusters les plus similaires sont réunis pour former un cluster plus grand, en fonction des distances mesurées dans DIANA. Des itérations sont effectuées jusqu'à ce que nous obtenions un seul grand cluster contenant tous les points de données.
Avantages :
1. Bien que l'utilisateur doive définir un seuil de division, aucune connaissance préalable du nombre de clusters n'est requise.
2. Simple à appliquer à une variété de types de données et connu pour produire des résultats fiables pour les données obtenues à partir de diverses sources. En conséquence, il a une large gamme d'applications.
Désavantages:
1. La division en grappes (DIANA) ou la combinaison (AGNES) est assez rigoureuse et, une fois effectuée, elle ne peut pas être inversée ou réaffectée lors d'itérations ou de réexécutions ultérieures.
2. Il a une complexité temporelle élevée pour tous les n points de données, de l'ordre de O(n^2logn), et ne peut donc pas être utilisé pour des ensembles de données plus volumineux.
3. Incapable de gérer les valeurs aberrantes et le bruit

Qu'est-ce que la maximisation attendue dans GMM ?

Nous supposons que les points de données correspondent à une distribution gaussienne dans les modèles mixtes gaussiens, ce qui n'est jamais une contrainte par rapport aux restrictions des approches précédentes. De plus, cette hypothèse peut conduire à des critères de sélection de forme de cluster critiques - c'est-à-dire que les formes de cluster peuvent maintenant être mesurées. Les deux métriques les plus fréquentes et les plus faciles - la moyenne et la variance - sont utilisées pour quantifier les données.
L'espérance-maximisation, un type de fonction d'optimisation, est utilisée pour déterminer la moyenne et la variance. Cette fonction commence par un ensemble de paramètres gaussiens aléatoires, tels que, et vérifie si l'hypothèse affirme qu'un échantillon appartient au cluster c. Après cela, nous passons à l'étape de maximisation, qui consiste à mettre à jour les paramètres gaussiens en fonction des points alloués au cluster. L'objectif de l'étape de maximisation est d'augmenter la probabilité que l'échantillon appartienne à la distribution en grappes.

Quelles sont les applications du clustering ?

Examinons quelques-unes des utilisations commerciales du clustering et comment il s'intègre dans l'exploration de données.
1. C'est le fondement des algorithmes des moteurs de recherche, exigeant que les objets qui sont similaires les uns aux autres soient donnés ensemble et que les objets qui sont différents soient ignorés.
2. Les algorithmes de regroupement ont démontré leur efficacité dans la détection de cellules malignes à partir de diverses imageries médicales à l'aide de la segmentation d'images en bioinformatique, supprimant les erreurs humaines et autres biais.
3. Le regroupement a été utilisé par Netflix pour créer des suggestions de films pour ses téléspectateurs.
4. L'analyse par grappes, qui divise les articles en un groupe de sujets connexes, peut être utilisée pour résumer les nouvelles.
5. Les CV des demandeurs d'emploi peuvent être divisés en catégories en fonction de diverses variables telles que les compétences, l'expérience, les forces, les types de projets, l'expertise, etc., permettant aux employeurs potentiels de se connecter avec les bonnes personnes.