Comprendre le concept de clustering hiérarchique dans l'analyse de données : fonctions, types et étapes

Publié: 2023-04-08

Le clustering fait référence au regroupement de données similaires dans des groupes ou des clusters dans l'analyse des données. Ces clusters aident les analystes de données à organiser des points de données similaires dans un groupe tout en les différenciant des autres données qui ne sont pas similaires.

Le clustering hiérarchique des données est l'une des méthodes utilisées pour regrouper les données dans un arbre de clusters. C'est l'une des approches les plus populaires et les plus utiles pour le regroupement de données. Si vous souhaitez faire partie du domaine en plein essor de la science des données et de l'analyse des données , le clustering hiérarchique est l'une des choses les plus importantes à apprendre.

Cet article vous aidera à comprendre la nature du clustering hiérarchique, sa fonction, ses types et ses avantages.

Table des matières

Qu'est-ce que le clustering hiérarchique ?

Comme son nom l'indique, le clustering hiérarchique regroupe différentes données en clusters dans un format hiérarchique ou arborescent. Chaque point de données est traité comme un cluster distinct dans cette méthode. L'analyse hiérarchique des clusters est très populaire parmi les scientifiques des données et les analystes de données car elle résume les données dans une hiérarchie gérable de clusters plus facile à analyser.

Les algorithmes de clustering hiérarchique prennent plusieurs points de données différents et prennent le plus proche des deux pour créer un cluster. Il répète ces étapes jusqu'à ce que tous les points de données se transforment en un seul cluster. Le processus peut également être inversé pour diviser un seul cluster fusionné en différents clusters plus petits et finalement en points de données.

La méthode hiérarchique de regroupement peut être représentée visuellement sous la forme d'un dendrogramme qui est un diagramme en forme d'arbre. Un dendrogramme peut être coupé à tout moment pendant le processus de regroupement lorsque le nombre souhaité de grappes a été créé. Cela facilite également le processus d'analyse des données.

Comment fonctionne le clustering hiérarchique ?

Le processus de clustering hiérarchique est assez simple à comprendre. Un algorithme de clustering hiérarchique traite tous les ensembles de données disponibles comme des clusters différents. Ensuite, il identifie deux ensembles de données les plus similaires et les fusionne en un cluster. Après cela, le système continue de répéter ces étapes jusqu'à ce que tous les points de données fusionnent en un seul grand cluster. Le processus peut également être arrêté une fois que le nombre requis de clusters est disponible pour l'analyse.

La progression et le résultat d'un processus de clustering hiérarchique peuvent être visualisés sous la forme d'un dendrogramme qui peut vous aider à identifier la relation entre différents clusters et leur nature similaire ou différente.

Types de clustering hiérarchique

Un algorithme de clustering hiérarchique peut être utilisé de deux manières différentes. Voici les caractéristiques de deux types de clustering hiérarchique que vous pouvez utiliser.

1. Clustering hiérarchique agglomératif

La méthode agglomérative est la méthode la plus couramment utilisée pour regrouper hiérarchiquement les données. Dans cette méthode, l'algorithme est présenté avec plusieurs ensembles de données différents, chacun étant traité comme un cluster à part entière. Ensuite, l'algorithme commence à se combiner en groupes de deux en fonction de leur similitude. Il répète ces étapes jusqu'à ce que le nombre requis de clusters soit atteint. Cette méthode est plus couramment utilisée dans l' analyse de cluster hiérarchique .

2. Clustering hiérarchique diviseur

La méthode de division du clustering hiérarchique est l'inverse de la méthode d'agglomération. Dans cette méthode, l'algorithme est présenté avec un seul grand groupe de nombreux points de données qu'il différencie étape par étape en fonction de leur disparité. Il en résulte plusieurs ensembles de données qui ont des propriétés différentes. La méthode de division n'est pas souvent utilisée dans la pratique.

Apprenez des cours de science des données en ligne dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Étapes du clustering hiérarchique

Comme mentionné précédemment, il existe trois étapes principales dans le regroupement hiérarchique des données.

  1. L'identification des similitudes entre deux points de données différents.
  2. Les fusionner en un seul cluster.
  3. Répétez ces étapes pour tous les points de données jusqu'à ce qu'ils soient fusionnés en un seul grand cluster de données.

Cependant, il est également très important de se rappeler comment identifier les points similaires dans le clustering hiérarchique. Si vous étudiez un dendrogramme produit par un algorithme, vous pouvez facilement identifier les points centraux de chaque cluster différent. Les clusters les moins éloignés les uns des autres dans le dendrogramme sont les plus similaires. C'est la raison pour laquelle il est également appelé algorithme basé sur la distance. La similarité entre un cluster et tous les autres dans un dendrogramme est appelée une matrice de proximité.

Vous devez également choisir la bonne mesure de distance lors de l'utilisation du clustering hiérarchique. Par exemple, selon que vous choisissez comme mesure de distance leur sexe ou leur formation, un ensemble de données contenant des informations sur les mêmes personnes produira des dendrogrammes différents.

Lisez nos articles populaires sur la science des données

Cheminement de carrière en science des données : un guide de carrière complet Croissance de carrière en science des données : l'avenir du travail est là Pourquoi la science des données est-elle importante ? 8 façons dont la science des données apporte de la valeur à l'entreprise
Pertinence de la science des données pour les managers La feuille de triche ultime de la science des données que tous les scientifiques des données devraient avoir Top 6 des raisons pour lesquelles vous devriez devenir Data Scientist
Une journée dans la vie d'un data scientist : que font-ils ? Mythe brisé : la science des données n'a pas besoin de codage Business Intelligence vs Data Science : quelles sont les différences ?

Python de clustering hiérarchique

Maintenant que vous avez une compréhension claire du clustering hiérarchique, voyons comment effectuer le clustering hiérarchique Python . Voici à quoi ressemblerait l'exécution d'un clustering hiérarchique en utilisant la bibliothèque"scikit-learn" de Python .

Supposons qu'il y ait deux variables ( x et y) dans un jeu de données avec six observations :

Observations X y
1 1 1
2 2 1
3 4 3
4 5 4
5 6 5
6 7 5

Sous forme de nuage de points, voici comment ces observations seront visualisées :

Python

importer numpy comme

np

importer matplotlib.pyplot en tant que plt

# Définir le jeu de données

X = np. tableau([[ 1,1], [2,1], [4,3], [5,4], [6,5], [7,5]])

# Tracer les données

plt.scatter(X[:, 0], X[:,1])

plt.show()

Il y a deux groupes d'observations dans ce graphique - l'un comprend des valeurs inférieures de x et y, et l'autre avec des valeurs supérieures dexety.

Vous pouvez utiliser"scikit learn" pour effectuer un clustering hiérarchique sur cet ensemble de données.

Les deux groupes d'observations dans le diagramme ont des valeurs différentes. L'un se compose de valeurs supérieures de x et y, et l'autre de valeurs inférieures.

Découvrez noscours gratuits de science des données pour avoir une longueur d'avance sur la concurrence.

Parmi les deux principales méthodes de clustering hiérarchique dont nous avons discuté précédemment, nous utiliserons la méthode de clustering agglomératif avec la méthode de liaison « ward ». La méthode «ward » minimise les variations des clusters qui sont fusionnés, produisant ainsi des clusters de taille et de forme similaires.

Explorez nos cours populaires en science des données

Programme exécutif de troisième cycle en science des données de l'IIITB Programme de certificat professionnel en science des données pour la prise de décision commerciale Master of Science en science des données de l'Université de l'Arizona
Programme de certificat avancé en science des données de l'IIITB Programme de certificat professionnel en science des données et analyse commerciale de l'Université du Maryland Cours de science des données

Python

depuis sklearn.clusterimportAgglomerativeClustering

# Effectuer un clustering hiérarchique

clustering AgglomerativeClustering (n_clusters= 2, link='ward').fit(X)

Le paramètre 'n-clusters ' a été utilisé ici pour spécifier que nous voulons deux clusters.

Nous pouvons utiliser différentes couleurs pour chaque cluster lorsque nous les traçons :

Python

# Tracer les clusters

couleurs=np.array([' r', 'b'])

plt.scatter (X[:, 0], X[:,1], c=couleurs [clustering.labels_])

plt.show()

Les deux clusters dans les données ont été correctement identifiés par l'algorithme de clustering. Vous pouvez également utiliser l'étiquette que l'algorithme de clustering a attribuée à chaque observation :

Python

imprimer (clustering.labels_)

net

[ 0 0 1 1 1 1]

Les quatre dernières observations ont été assignées au groupe 1, tandis que les deux premières ont été assignées au groupe 0.

Si vous souhaitez visualiser la structure hiérarchique de ces clusters, vous pouvez générer un dendrogramme pour cela :

Python

de scipy.cluster.hierarchyimportdendrogramme, liaison

# Calculer la matrice de liaison

Z = lien(X, ' ward')

# Tracer le dendrogramme

dendrogramme(Z)

plt.show()

Le dendrogramme peut nous aider à visualiser la hiérarchie des clusters fusionnés.

Principales compétences en science des données à acquérir

Principales compétences en science des données à acquérir
1 Cours d'analyse de données Cours de statistiques inférentielles
2 Programmes de tests d'hypothèses Cours de régression logistique
3 Cours de régression linéaire Algèbre linéaire pour l'analyse

Conclusion

Le regroupement de données est une partie très importante de la science des données et de l'analyse des données. Si vous souhaitez apprendre différentes méthodes de clustering, upGrad peut vous aider à démarrer votre parcours d'apprentissage ! Avec l'aide de master classes, de sessions de l'industrie, de sessions de mentorat, de Python Programming Bootcamp et de sessions d'apprentissage en direct, le Master of Science in Data Science d'upGrad est un cours conçu pour que les professionnels aient un avantage sur leurs concurrents.

Offert sous la direction de l'Université de l'Arizona, ce cours stimule votre carrière en science des données avec un programme de pointe, une expérience d'apprentissage immersive avec des experts de l'industrie et des opportunités d'emploi.

Q. Pourquoi faisons-nous du clustering hiérarchique en science des données ?

Le clustering hiérarchique est utilisé pour regrouper les données en fonction de divers attributs similaires. La distribution des aspects de données dans des groupes visuellement compréhensibles simplifie sa mise en œuvre pratique en regardant facilement le dendrogramme.

Q. Dans quoi le clustering hiérarchique est-il utilisé ?

Le clustering hiérarchique est une forme largement utilisée de regroupement de données générées via des sites de réseaux sociaux. En utilisant ces données, les analystes peuvent récolter des informations précieuses pertinentes pour améliorer leurs processus métier et générer des revenus supplémentaires.

Q. Quelles sont les limites du clustering hiérarchique ?

Le clustering hiérarchique ne convient pas aux types mixtes ou aux données manquantes. Une autre limitation du clustering hiérarchique est qu'il ne fonctionne pas bien avec un ensemble de données très volumineux.